Mengapa kita tidak menggunakan laju pembelajaran non-konstan untuk gradien yang layak untuk hal-hal lain selain jaringan saraf?

14

Literatur pembelajaran yang mendalam penuh dengan trik pintar dengan menggunakan tingkat pembelajaran yang tidak konstan dalam gradient descent. Hal-hal seperti peluruhan eksponensial, RMSprop, Adagrad dll mudah untuk diimplementasikan dan tersedia di setiap paket pembelajaran yang mendalam, namun mereka tampaknya tidak ada di luar jaringan saraf. Apakah ada alasan untuk ini? Jika orang tidak peduli, apakah ada alasan mengapa kita tidak harus peduli di luar jaringan saraf?

Tim
sumber
2
Saya pikir metode pencarian garis atau wilayah kepercayaan adalah tingkat pembelajaran "tidak konstan".
Haitao Du
2
Ada banyak metode gradien tidak konstan yang dikembangkan secara independen dari NNs. Barzilai-Borwein GD dan Nesterov GD adalah dua contoh yang menonjol.
Sycorax berkata Reinstate Monica
@ Scorax tetapi apakah mereka benar-benar digunakan setiap hari di luar NNs?
Tim
2
@Tim saya tidak bisa mengatakannya. Ketika saya perlu melakukan pencarian lokal di luar NNs, saya memiliki kemewahan menggunakan metode urutan kedua. Tetapi saya senang mengetahui tentang metode GD yang lebih cepat untuk kesempatan bahwa saya mungkin memiliki trik lucu di saku belakang saya.
Sycorax berkata Reinstate Monica
1
Perlu dicatat bahwa (mengejutkan saya) saya telah menemukan kasus bahwa GBM tidak menggunakan tingkat pembelajaran yang konstan, agak mengejutkan orang. Contoh khusus adalah implementasi DART pada LightGBM. Sementara kertas asli tidak menggunakan LR yang semakin kecil, implementasi yang sebenarnya tidak secara default.
usεr11852 mengatakan Reinstate Monic

Jawaban:

16

Penafian: Saya tidak punya banyak pengalaman dengan optimasi di luar jaringan saraf, jadi jawaban saya akan jelas bias, tetapi ada beberapa hal yang berperan:

  • (Dalam) jaringan saraf memiliki banyak parameter . Ini memiliki beberapa implikasi:

    Pertama, itu semacam aturan metode urutan yang lebih tinggi hanya karena menghitung Goni dan turunan yang lebih tinggi menjadi tidak mungkin. Di domain lain, ini mungkin pendekatan yang lebih baik daripada tweak apa pun untuk SGD.

    Kedua, meskipun SGD luar biasa , ia cenderung lambat secara praktis. Varian SGD yang ditingkatkan ini terutama memungkinkan pelatihan yang lebih cepat, sementara berpotensi kehilangan beberapa properti bagus SGD . Di domain lain, waktu pelatihan SGD mungkin bukan hambatan, jadi peningkatan yang diperoleh dengan mempercepatnya mungkin dapat diabaikan.

  • Pelatihan (mendalam) jaringan saraf adalah optimasi non-cembung dan saya tidak menyadari hasil relaksasi cembung yang signifikan di lapangan. Tidak seperti bidang lain, jaringan saraf tidak berfokus pada solusi optimal yang terbukti secara global, yang mengarah ke investasi lebih banyak upaya dalam meningkatkan sifat-sifat permukaan kerugian dan traversal selama optimasi.

    Di bidang lain, menggunakan relaksasi cembung dan mendapatkan solusi optimal secara global mungkin menjadi pusat perhatian daripada algoritma optimasi, karena begitu masalah didefinisikan sebagai masalah cembung, pilihan algoritma optimasi tidak dapat meningkatkan kualitas solusi. .

Saya kira jawaban ini tidak mencakup semua aspek yang mungkin dan saya sendiri penasaran dengan pendapat lain.

Jan Kukacka
sumber
Jadi pada dasarnya Anda mengatakan bahwa masalah lain jauh lebih sederhana, jadi tidak perlu trik dan vanilla SGD sudah cukup untuk mereka?
Tim
3
Itu terlalu menyederhanakan pesan saya. 1) beberapa masalah dapat menggunakan metode urutan lebih tinggi, tidak perlu untuk SGD adaptif. 2) beberapa masalah tidak dapat mengambil manfaat dari peningkatan SGD karena hukum Amdahl. 3) beberapa masalah mungkin menawarkan solusi cembung dan kesulitan utama dalam menempatkannya sebagai cembung. Tak satu pun dari ini mengatakan masalah lain jauh lebih sederhana daripada pembelajaran yang mendalam, melainkan menjelaskan mengapa peningkatan SGD tidak menjadi pusat perhatian mereka.
Jan Kukacka
Poin 4 yang mungkin: jika Anda mengambil beberapa metode lain dan membuatnya cukup kompleks (dimensi tinggi, nonlinier, nonconvex) untuk mendapatkan manfaat dari metode gradient descent yang canggih, itu mungkin akan disebut jaringan saraf.
Nathaniel
1
@JanKukacka Saya tahu, saya mencari klarifikasi karena jawaban Anda tidak langsung
Tim