Apakah ada studi yang meneliti dropout vs regularisasi lainnya?

9

Apakah ada makalah yang diterbitkan yang menunjukkan perbedaan metode regularisasi untuk jaringan saraf, lebih disukai pada domain yang berbeda (atau setidaknya set data yang berbeda)?

Saya bertanya karena saat ini saya merasa bahwa kebanyakan orang tampaknya hanya menggunakan dropout untuk regularisasi dalam visi komputer. Saya ingin memeriksa apakah akan ada alasan (tidak) untuk menggunakan berbagai cara regularisasi.

Martin Thoma
sumber

Jawaban:

3

Dua poin:

  1. Putus sekolah juga biasanya dibandingkan dengan ansambel jaringan saraf. Tampaknya ia memiliki beberapa manfaat kinerja pelatihan dan rata-rata beberapa jaringan saraf.
  2. Putus sekolah lebih mudah dikalibrasi daripada regularisasi. Hanya ada satu hiperparameter yang merupakan tingkat putus sekolah dan banyak orang menggunakan 0,5 saat pelatihan (dan kemudian 1,0 pada evaluasi tentu saja :)), lihat misalnya contoh TensorFlow ini .

Bagaimanapun, saya sedikit skeptis terhadap studi empiris neural networks. Ada terlalu banyak hyperparameter untuk fine tune, dari topologi jaringan ke prosedur optimasi gradient descent hingga fungsi aktivasi dan apa pun yang Anda uji seperti regularisasi. Kemudian, semuanya stochastic dan biasanya kenaikan kinerja sangat kecil sehingga Anda hampir tidak dapat menguji perbedaan secara statistik. Banyak penulis bahkan tidak repot melakukan pengujian statistik. Mereka hanya melakukan validasi silang rata-rata dan mendeklarasikan model apa pun yang memiliki perolehan poin desimal tertinggi untuk menjadi pemenang.

Anda dapat menemukan studi yang mempromosikan dropout hanya untuk dikontradiksikan oleh regularisasi yang mempromosikan lainnya.

Saya pikir itu semua bermuara pada preferensi estetika. Dropout IMHO terdengar lebih masuk akal secara biologis daripada regularisasi. Tampaknya juga lebih mudah untuk melakukan kalibrasi. Jadi, saya pribadi lebih suka kalau menggunakan framework seperti TensorFlow. Jika kita harus menggunakan jaringan saraf kita sendiri, yang sering kita lakukan, kita akan menggunakan regularisasi karena lebih mudah diimplementasikan.

Ricardo Cruz
sumber
0

Pastinya. Makalah dari Sang Pencipta sendiri, Geoffrey Hinton. https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf membacanya. Tapi saya mendorong Anda untuk melihat perbedaannya sendiri dengan mengimplementasikannya.

Amanuel Negash
sumber
2
Makalah ini tidak secara eksplisit membandingkan antara pendekatan regularisasi berbeda, kecuali dengan menunjukkan putus sekolah sebagai peningkatan pada hasil canggih pada saat itu (hasil sebelumnya kemungkinan besar memang menggunakan beberapa bentuk regularisasi lain, tetapi mereka tidak terdaftar). Ini juga menyebutkan batasan berat maxnorm sebagai regulator tambahan yang efektif untuk menambah dropout.
Neil Slater