Apa tujuan yang dilayani oleh metode "putus sekolah" dan bagaimana cara meningkatkan kinerja keseluruhan jaringan saraf?
sumber
Apa tujuan yang dilayani oleh metode "putus sekolah" dan bagaimana cara meningkatkan kinerja keseluruhan jaringan saraf?
Dropout berarti bahwa setiap titik data individu hanya digunakan agar sesuai dengan subset neuron acak. Ini dilakukan untuk membuat jaringan saraf lebih seperti model ansambel.
Yaitu, seperti hutan acak yang rata-rata bersama-sama hasil dari banyak pohon keputusan individu, Anda dapat melihat jaringan saraf dilatih menggunakan dropout sebagai rata-rata bersama-sama hasil banyak jaringan saraf individu (dengan 'hasil' dipahami berarti aktivasi di setiap lapisan , bukan hanya lapisan output).
Makalah asli 1 yang mengusulkan dropout jaringan saraf berjudul: Dropout: Cara sederhana untuk mencegah overfitting jaringan saraf . Judul itu cukup banyak menjelaskan dalam satu kalimat apa yang dilakukan Dropout. Dropout bekerja dengan secara acak memilih dan menghapus neuron dalam jaringan saraf selama fase pelatihan. Perhatikan bahwa putus sekolah tidak diterapkan selama pengujian dan jaringan yang dihasilkan tidak putus sebagai bagian dari prediksi.
Penghapusan / penghentian neuron secara acak ini mencegah co-adaptasi neuron yang berlebihan dan dengan demikian, mengurangi kemungkinan overfiting jaringan .
Penghapusan neuron secara acak selama pelatihan juga berarti bahwa pada suatu titik waktu, hanya sebagian dari jaringan asli yang dilatih. Ini memiliki efek bahwa Anda akhirnya semacam melatih beberapa sub-jaringan, misalnya:
Ini adalah dari pelatihan berulang sub-jaringan yang bertentangan dengan seluruh jaringan di mana gagasan dropout jaringan saraf menjadi semacam teknik ensemble masuk. Yaitu pelatihan sub-jaringan mirip dengan pelatihan banyak, algoritma yang relatif lemah / model dan menggabungkannya untuk membentuk satu algoritma yang lebih kuat daripada bagian-bagian individual.
Referensi:
1 : Srivastava, Nitish, dkk. "Dropout: Cara sederhana untuk mencegah overfitting jaringan saraf." Jurnal Penelitian Pembelajaran Mesin 15.1 (2014): 1929-1958.
Saya akan mencoba menjawab pertanyaan Anda menggunakan ide Geoffrey Hinton di kertas putus sekolah dan kelas Coursera-nya.
Apa tujuan metode melayani "putus sekolah"?
jadi itu adalah teknik regularisasi yang mengatasi masalah overfitting (varian tinggi).
Bagaimana cara meningkatkan kinerja keseluruhan?
dengan generalisasi yang lebih baik dan tidak jatuh dalam perangkap yang terlalu pas.
sumber
Ada beberapa jawaban bagus di sini. Penjelasan paling sederhana yang dapat saya berikan untuk putus adalah bahwa secara acak mengecualikan beberapa neuron dan koneksi mereka dari jaringan, sementara pelatihan, untuk menghentikan neuron dari "co-adaptating" terlalu banyak. Ini memiliki efek membuat setiap neuron berlaku lebih umum dan sangat baik untuk menghentikan overfitting untuk jaringan saraf besar.
sumber