Baru-baru ini saya telah membaca makalah oleh Yann Dauphin et al. Mengidentifikasi dan menyerang masalah saddle point dalam optimasi non-cembung dimensi tinggi , di mana mereka memperkenalkan algoritma keturunan yang menarik yang disebut Saddle-Free Newton , yang tampaknya dirancang khusus untuk optimalisasi jaringan saraf dan tidak boleh menderita macet di sadel poin seperti metode urutan pertama sebagai vanilla SGD.
Makalah ini tanggal kembali ke 2014, jadi bukan hal yang baru, namun, saya belum melihatnya digunakan "di alam liar". Mengapa metode ini tidak digunakan? Apakah perhitungan Hessian terlalu mahal untuk masalah / jaringan berukuran dunia nyata? Apakah bahkan ada beberapa implementasi open source dari algoritma ini, mungkin untuk digunakan dengan beberapa kerangka pembelajaran yang mendalam?
Pembaruan Feb 2019: ada implementasi yang tersedia sekarang: https://github.com/dave-fernandes/SaddleFreeOptimizer )
sumber
Jawaban:
Optimalisasi yang lebih baik tidak selalu berarti model yang lebih baik. Pada akhirnya yang kami pedulikan adalah seberapa baik model tersebut digeneralisasi, dan belum tentu seberapa baik kinerja pada set pelatihan. Teknik optimasi yang lebih bagus biasanya berkinerja lebih baik dan menyatu lebih cepat pada set pelatihan, tetapi tidak selalu menggeneralisasi serta algoritma dasar. Misalnya makalah ini menunjukkan bahwa SGD dapat menggeneralisasi lebih baik daripada pengoptimal ADAM. Ini juga dapat terjadi dengan beberapa algoritma optimasi urutan kedua.
[Sunting] Menghapus titik pertama karena tidak berlaku di sini. Terima kasih kepada bayerj untuk menunjukkan ini.
sumber