Bagaimana cara kerja istilah momentum untuk algoritma backpropagation?

9

Ketika memperbarui bobot jaringan saraf menggunakan algoritma backpropagation dengan istilah momentum, haruskah tingkat pembelajaran diterapkan pada istilah momentum juga?

Sebagian besar informasi yang dapat saya temukan tentang menggunakan momentum memiliki persamaan yang terlihat seperti ini:

Wi=WiαΔWi+μΔWi1

di mana adalah tingkat belajar, dan μ adalah istilah momentum.αμ

Jika suku lebih besar dari suku α maka pada iterasi berikutnya Δ W dari iterasi sebelumnya akan memiliki pengaruh yang lebih besar pada bobot daripada yang sekarang.μαΔW

Apakah ini tujuan dari istilah momentum? atau haruskah persamaannya terlihat seperti ini?

Wi=Wiα(ΔWi+μΔWi1)

yaitu. scaling segalanya dengan tingkat belajar?

guskenny83
sumber

Jawaban:

10

nWkiWk

ΔWk(i)=αEWk+μΔWk(i1)EWkWk

Pengenalan laju momentum memungkinkan pelemahan osilasi dalam gradient descent. Ide geometris di balik ide ini mungkin paling baik dipahami dalam hal analisis eigenspace dalam kasus linear. Jika rasio antara nilai eigen terendah dan terbesar adalah besar maka melakukan penurunan gradien lambat bahkan jika tingkat pembelajaran besar karena pengkondisian matriks. Momentum ini memperkenalkan keseimbangan dalam pembaruan antara vektor eigen yang terkait dengan nilai eigen yang lebih rendah dan lebih besar.

Untuk lebih jelasnya saya merujuk

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

nico
sumber
Apa arti underbrace?
David Richerby
ΔWkμWk(i1)μΔWk(i1)
ΔWk(i1)
Apa yang Anda maksud dengan "variasi kerugian"? Apakah itu seperti "variasi dalam kesalahan"?
starbeamrainbowlabs
Itu tidak lain berarti turunan dari kesalahan sehubungan dengan bobot.
nico