Saat melatih jaringan saraf menggunakan algoritma back-propagation, metode gradient descent digunakan untuk menentukan pembaruan bobot. Pertanyaan saya adalah: Daripada menggunakan metode gradient descent untuk secara perlahan menemukan titik minimum sehubungan dengan bobot tertentu, mengapa kita tidak mengatur turunan , dan temukan nilai bobot yang meminimalkan kesalahan?w
Juga, mengapa kita yakin bahwa fungsi kesalahan dalam back-propagation akan menjadi minimum? Tidak bisakah ternyata fungsi kesalahan maksimum? Apakah ada properti khusus dari fungsi squashing yang menjamin bahwa jaringan dengan sejumlah node tersembunyi dengan bobot sewenang-wenang dan vektor input akan selalu memberikan fungsi kesalahan yang memiliki beberapa minimum?
22
Jawaban:
Karena kita tidak bisa. Permukaan optimasi sebagai fungsi dari bobot w adalah nonlinear dan tidak ada solusi bentuk tertutup ada untuk d S ( w )S( w ) w .dS( w )dw= 0
Keturunan gradien, menurut definisi, turun. Jika Anda mencapai titik stasioner setelah turun, itu harus menjadi minimum (lokal) atau titik sadel, tetapi tidak pernah menjadi maksimum lokal.
sumber
Mengenai jawaban Marc Claesen, saya percaya bahwa gradient descent dapat berhenti pada maksimum lokal dalam situasi di mana Anda menginisialisasi ke maksimum lokal atau Anda kebetulan berakhir di sana karena nasib buruk atau parameter laju yang salah. Maksimum lokal akan memiliki gradien nol dan algoritma akan berpikir itu telah konvergen. Inilah sebabnya saya sering menjalankan beberapa iterasi dari titik awal yang berbeda dan melacak nilai-nilai di sepanjang jalan.
sumber
Jika seseorang menggunakan metode Krylov untuk menyelesaikan Goni, dan seseorang tidak menggunakan prekondisi yang baik untuk Goni, maka biaya kira-kira menyeimbangkan - iterasi Newton membutuhkan waktu lebih lama tetapi membuat lebih banyak kemajuan, sedemikian rupa sehingga total waktu kira-kira sama atau lebih lambat dari gradient descent. Di sisi lain, jika seseorang memiliki prekondisi Hessian yang baik maka metode Newton memenangkan banyak waktu.
Yang mengatakan, metode trust-wilayah Newton-Krylov adalah standar emas dalam optimasi skala besar modern, dan saya hanya akan mengharapkan penggunaannya untuk meningkatkan jaring saraf di tahun-tahun mendatang karena orang ingin memecahkan masalah yang lebih besar dan lebih besar. (dan juga karena semakin banyak orang dalam optimasi numerik tertarik pada pembelajaran mesin)
sumber