Saya melakukan percobaan pada set validasi EMNIST menggunakan jaringan dengan RMSProp, Adam dan SGD. Saya mencapai akurasi 87% dengan SGD (tingkat belajar 0,1) dan dropout (0,1 dropout prob) serta regularisasi L2 (penalti 1e-05). Saat menguji konfigurasi persis yang sama dengan RMSProp dan Adam serta tingkat pembelajaran awal 0,001, saya mencapai akurasi 85% dan kurva pelatihan yang secara signifikan kurang mulus. Saya tidak tahu bagaimana menjelaskan perilaku ini. Apa yang bisa menjadi alasan di balik kurangnya kelancaran dalam kurva pelatihan dan akurasi yang lebih rendah dan tingkat kesalahan yang lebih tinggi tercapai?
12
Jawaban:
Setelah meneliti beberapa artikel online dan dokumentasi Keras disarankan bahwa pengoptimal RMSProp direkomendasikan untuk jaringan saraf berulang. https://github.com/keras-team/keras/blob/master/keras/optimizers.py#L209
Stochastic Gradient Descent tampaknya memanfaatkan tingkat pembelajaran dan momentumnya di antara setiap batch untuk mengoptimalkan bobot model berdasarkan pada informasi fungsi kerugian dalam kasus saya 'kategorikal_crossentropi'.
Saya sarankan http://ruder.io/optimizing-gradient-descent/index.html untuk informasi tambahan tentang algoritma pengoptimalan.
sumber