Dalam posting blog baru - baru ini oleh Rong Ge, dikatakan bahwa:
Dipercayai bahwa untuk banyak masalah termasuk mempelajari jaring dalam, hampir semua minimum lokal memiliki nilai fungsi yang sangat mirip dengan optimal global, dan karenanya menemukan minimum lokal cukup baik.
Dari mana keyakinan ini berasal?
Jawaban:
Sebuah makalah baru-baru ini The Loss Surfaceaces Multilayer Networks menawarkan beberapa kemungkinan penjelasan untuk ini. Dari abstrak mereka (cetak tebal adalah milikku):
Banyak orang yang berpengaruh dalam pembelajaran mendalam (Yann LeCunn dan Yoshua Bengio untuk menyebutkan beberapa) dan beberapa peneliti datang lebih dari sudut matematika (Rong Ge dan kolaborator Sanjeev Arora lainnya) telah mendiskusikan dan mengeksplorasi ide-ide ini.
Dalam makalah yang direferensikan di atas, lihat Gambar 3, yang menunjukkan fenomena banding / konsentrasi dari nilai minimum lokal karena jaring memiliki unit yang lebih tersembunyi. Banding / konsentrasi mewakili beberapa bukti empiris bahwa untuk model yang lebih dalam atau lebih besar, minimum lokal "cukup baik", karena nilai kerugiannya hampir sama. Dan yang paling penting, mereka memiliki kerugian yang lebih dekat ke minimum global karena modelnya menjadi lebih kompleks (dalam hal ini lebih luas, tetapi dalam praktiknya, lebih dalam).
Lebih jauh lagi, mereka menggunakan model kaca bundar, yang mereka nyatakan hanyalah sebuah model dan belum tentu menunjukkan gambaran sebenarnya, untuk menunjukkan bahwa mencapai minimizer global dari minimum lokal mungkin memakan waktu lama secara eksponensial:
Penelitian Rong Ge dipusatkan di sekitar menerobos poin pelana. Yoshua Bengio dan kolaboratornya telah mengajukan Hipotesis Saddle Point yang cukup berani:
sumber di sini: Mengidentifikasi dan menyerang masalah titik sadel dalam optimasi non-cembung dimensi tinggi.
Hingga taraf tertentu, kedua pendekatan di atas tidak persis sama (Hipotesis Saddle Point mungkin mempertanyakan apa yang benar-benar minima lokal dan apa yang hanya merupakan titik sadel yang tidak terkondisikan dengan daerah dataran tinggi yang sangat panjang?). Gagasan di balik Hipotesis Saddle Point adalah bahwa dimungkinkan untuk merancang metode optimasi untuk menerobos poin sadel, misalnya Saddle-Free Newton dari artikel Bengio, untuk berpotensi mempercepat konvergensi dan bahkan mungkin mencapai optimum global. Artikel Multilayer Loss Surface pertama tidak benar-benar peduli dengan mencapai optimal global dan benar-benar percaya itu memiliki beberapa sifat overfitting yang buruk. Anehnya, kedua artikel menggunakan ide-ide dari fisika statistik dan model spin-glass.
Tetapi mereka saling terkait karena kedua artikel tersebut meyakini bahwa untuk mencapai minimizer global, seseorang harus mengatasi tantangan optimisasi poin sadel. Artikel pertama hanya percaya bahwa minimum lokal cukup baik.
Adalah wajar untuk bertanya-tanya apakah metode momentum dan algoritma pengoptimalan baru lainnya, yang dapat memperkirakan beberapa sifat kelengkungan orde kedua dapat lolos dari poin pelana. Animasi terkenal oleh Alec Radford di sini .
Untuk menjawab pertanyaan Anda: "dari mana keyakinan ini berasal" Saya pribadi pikir itu berasal dari kenyataan bahwa dimungkinkan untuk menggunakan benih acak yang berbeda untuk mempelajari bobot yang berbeda, tetapi jaring yang sesuai memiliki kinerja kuantitatif yang serupa. Misalnya, jika Anda menetapkan dua biji acak berbeda untuk inisialisasi berat Glorot, Anda mungkin akan mempelajari bobot yang berbeda, tetapi jika Anda berlatih menggunakan metode pengoptimalan yang serupa, jaring akan memiliki kinerja yang sama. Satu kepercayaan cerita rakyat yang umum adalah bahwa lanskap optimasi mirip dengan karton telur, posting blog bagus lainnya di sini: Tidak ada lagi minimum lokal? dengan analogi telur-karton.
Sunting: Saya hanya ingin menjadi jelas bahwa analogi karton telur itu tidak benar, jika tidak, tidak akan ada kebutuhan untuk momentum atau teknik optimasi lainnya yang lebih maju. Tetapi diketahui bahwa SGD tidak berkinerja sebaik SGD + Momentum atau algoritma optimisasi yang lebih modern, mungkin karena adanya titik pelana.
sumber