Dalam jaring saraf, mengapa menggunakan metode gradien daripada metaheuristik lainnya?

20

Dalam pelatihan jaringan saraf yang dalam dan dangkal, mengapa metode gradien (misalnya gradient descent, Nesterov, Newton-Raphson) umum digunakan, berbeda dengan metaheuristik lainnya?

Metaheuristik yang saya maksud adalah metode seperti annealing yang disimulasikan, optimisasi koloni semut, dll., Yang dikembangkan untuk menghindari terjebak dalam minima lokal.

Lior
sumber

Jawaban:

13

Memperluas jawaban @Dikran Marsupial ....

Anna Choromanska dan rekan-rekannya di kelompok Yan LeCunn di NYU, mengatasinya dalam makalah AISTATS 2014 mereka "The Loss Surface of Multilayer Nets" . Menggunakan teori matriks acak, bersama dengan beberapa eksperimen, mereka berpendapat bahwa:

  • Untuk jaringan ukuran besar, sebagian besar minimum lokal setara dan menghasilkan kinerja yang serupa pada set uji.

  • Probabilitas menemukan minimum lokal "buruk" (bernilai tinggi) adalah nol untuk jaringan ukuran kecil dan menurun dengan cepat dengan ukuran jaringan.

  • Berjuang untuk menemukan minimum global pada set pelatihan (sebagai lawan dari salah satu dari banyak lokal yang baik) tidak berguna dalam praktik dan dapat menyebabkan overfitting.

[Dari halaman 2 kertas]

Dalam pandangan ini, tidak ada alasan bagus untuk menerapkan pendekatan berat untuk menemukan minimum global. Waktu itu akan lebih baik dihabiskan untuk mencoba topologi jaringan baru, fitur, set data, dll.

Yang mengatakan, banyak orang berpikir untuk menambah atau mengganti SGD. Untuk jaringan yang cukup kecil (menurut standar kontemporer), metahuristik yang ditingkatkan ini tampaknya melakukan sesuatu Mavrovouniotis dan Yang (2016) menunjukkan bahwa optimisasi koloni semut + backprop mengalahkan backprop yang tidak dimodifikasi pada beberapa set data benchmark (walaupun tidak banyak). Rere el al. (2015) menggunakan simulasi anil untuk melatih CNN dan menemukan awalnya berkinerja lebih baik pada set validasi. Setelah 10 zaman, bagaimanapun, hanya perbedaan yang sangat kecil (dan tidak diuji untuk signifikansi) tetap. Keuntungan konvergensi-per-jaman yang lebih cepat juga diimbangi dengan jumlah waktu komputasi yang lebih besar per jaman, jadi ini bukan kemenangan yang nyata untuk simulasi anil.

Mungkin saja heuristik ini melakukan pekerjaan yang lebih baik dalam menginisialisasi jaringan dan setelah diarahkan ke jalur yang benar, pengoptimal apa pun akan melakukannya. Sutskever et al. (2013) dari kelompok Geoff Hinton berdebat seperti ini di makalah ICML 2013 mereka .

Matt Krause
sumber
17

Minima lokal sebenarnya tidak terlalu masalah dengan jaring saraf seperti yang sering disarankan. Beberapa minimum lokal disebabkan oleh simetri jaringan (mis. Anda dapat mengubah urutan neuron yang tersembunyi dan meninggalkan fungsinya).jaringan tidak berubah. Semua yang diperlukan adalah menemukan minimum lokal yang baik, bukan minimum global. Ketika itu terjadi secara agresif mengoptimalkan model yang sangat fleksibel, seperti jaringan saraf, mungkin menjadi resep untuk overfitting data, jadi menggunakan mis. kinerja generalisasi daripada yang dilatih oleh gradient descent yang berakhir pada minimum lokal. Jika metode optimasi heuristik ini digunakan, maka saya akan menyarankan termasuk istilah regularisasi untuk membatasi kompleksitas model.

... atau sebagai alternatif gunakan misalnya metode kernel atau model fungsi basis radial, yang cenderung lebih sedikit masalah.

Dikran Marsupial
sumber