Tampaknya pengoptimal Adaptive Moment Estimation (Adam) hampir selalu bekerja lebih baik (lebih cepat dan lebih dapat dipercaya mencapai minimum global) ketika meminimalkan fungsi biaya dalam pelatihan jaring saraf.
Mengapa tidak selalu menggunakan Adam? Mengapa repot-repot menggunakan RMSProp atau pengoptimal momentum?
neural-network
optimization
PyRsquared
sumber
sumber
Jawaban:
Berikut adalah posting blog yang mengulas artikel yang mengklaim SGD adalah adaptor umum yang lebih baik daripada ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/
Seringkali ada nilai menggunakan lebih dari satu metode (ansambel), karena setiap metode memiliki kelemahan.
sumber
Anda juga harus melihat pada postingan ini yang membandingkan berbagai pengoptimal turunan gradien berbeda. Seperti yang Anda lihat di bawah, Adam jelas bukan pengoptimal terbaik untuk beberapa tugas karena banyak yang lebih baik.
sumber