Literatur pembelajaran yang mendalam penuh dengan trik pintar dengan menggunakan tingkat pembelajaran yang tidak konstan dalam gradient descent. Hal-hal seperti peluruhan eksponensial, RMSprop, Adagrad dll mudah untuk diimplementasikan dan tersedia di setiap paket pembelajaran yang mendalam, namun mereka tampaknya tidak ada di luar jaringan saraf. Apakah ada alasan untuk ini? Jika orang tidak peduli, apakah ada alasan mengapa kita tidak harus peduli di luar jaringan saraf?
14
Jawaban:
Penafian: Saya tidak punya banyak pengalaman dengan optimasi di luar jaringan saraf, jadi jawaban saya akan jelas bias, tetapi ada beberapa hal yang berperan:
(Dalam) jaringan saraf memiliki banyak parameter . Ini memiliki beberapa implikasi:
Pertama, itu semacam aturan metode urutan yang lebih tinggi hanya karena menghitung Goni dan turunan yang lebih tinggi menjadi tidak mungkin. Di domain lain, ini mungkin pendekatan yang lebih baik daripada tweak apa pun untuk SGD.
Kedua, meskipun SGD luar biasa , ia cenderung lambat secara praktis. Varian SGD yang ditingkatkan ini terutama memungkinkan pelatihan yang lebih cepat, sementara berpotensi kehilangan beberapa properti bagus SGD . Di domain lain, waktu pelatihan SGD mungkin bukan hambatan, jadi peningkatan yang diperoleh dengan mempercepatnya mungkin dapat diabaikan.
Pelatihan (mendalam) jaringan saraf adalah optimasi non-cembung dan saya tidak menyadari hasil relaksasi cembung yang signifikan di lapangan. Tidak seperti bidang lain, jaringan saraf tidak berfokus pada solusi optimal yang terbukti secara global, yang mengarah ke investasi lebih banyak upaya dalam meningkatkan sifat-sifat permukaan kerugian dan traversal selama optimasi.
Di bidang lain, menggunakan relaksasi cembung dan mendapatkan solusi optimal secara global mungkin menjadi pusat perhatian daripada algoritma optimasi, karena begitu masalah didefinisikan sebagai masalah cembung, pilihan algoritma optimasi tidak dapat meningkatkan kualitas solusi. .
Saya kira jawaban ini tidak mencakup semua aspek yang mungkin dan saya sendiri penasaran dengan pendapat lain.
sumber