Mengapa tidak selalu menggunakan teknik optimasi ADAM?

12

Tampaknya pengoptimal Adaptive Moment Estimation (Adam) hampir selalu bekerja lebih baik (lebih cepat dan lebih dapat dipercaya mencapai minimum global) ketika meminimalkan fungsi biaya dalam pelatihan jaring saraf.

Mengapa tidak selalu menggunakan Adam? Mengapa repot-repot menggunakan RMSProp atau pengoptimal momentum?

PyRsquared
sumber
1
Saya tidak percaya ada cara ketat dan formal untuk mendukung kedua pernyataan itu. Semuanya murni empiris, karena permukaan kesalahan tidak diketahui. Sebagai patokan, dan murni dari pengalaman, ADAM bekerja dengan baik di mana orang lain gagal (misalnya segmentasi), meskipun bukan tanpa kekurangan (konvergensi bukan monoton)
Alex
2
Adam lebih cepat bertemu. SGD lebih lambat tetapi digeneralisasi lebih baik. Jadi pada akhirnya itu semua tergantung pada keadaan khusus Anda.
agcala

Jawaban:

4

Anda juga harus melihat pada postingan ini yang membandingkan berbagai pengoptimal turunan gradien berbeda. Seperti yang Anda lihat di bawah, Adam jelas bukan pengoptimal terbaik untuk beberapa tugas karena banyak yang lebih baik.


sumber
Sebagai catatan: Dalam artikel terkait mereka menyebutkan beberapa kelemahan ADAM dan menghadirkan AMSGrad sebagai solusi. Namun, mereka menyimpulkan bahwa apakah AMSGrad mengungguli ADAM dalam praktiknya (pada saat penulisan) tidak konklusif.
Lus