Saya membaca tentang pengoptimal Adam untuk Deep Learning dan menemukan kalimat berikut dalam buku baru Deep Learning oleh Begnio, Goodfellow dan Courtville:
Adam menyertakan koreksi bias pada estimasi momen momen orde pertama (istilah momentum) dan momen orde kedua (tanpa fokus) untuk memperhitungkan inisialisasi mereka di titik asal.
tampaknya alasan utama untuk memasukkan ketentuan koreksi bias ini adalah karena entah bagaimana ia menghapus bias inisialisasi dan .
- Saya tidak 100% yakin apa artinya tetapi bagi saya itu mungkin berarti bahwa momen ke-1 dan ke-2 mulai dari nol dan entah bagaimana memulainya dari nol, miringkan nilai yang mendekati nol dengan cara yang tidak adil (atau berguna) untuk pelatihan ?
- Padahal saya ingin tahu apa artinya lebih tepatnya dan bagaimana hal itu merusak pembelajaran. Secara khusus, keunggulan apa yang dimiliki un-biasing dari optimizer dalam hal optimasi?
- Bagaimana ini membantu melatih model pembelajaran yang mendalam?
- Juga, apa artinya bila tidak bias? Saya tahu apa arti standar deviasi yang tidak bias tetapi bagi saya tidak jelas apa artinya dalam konteks ini.
- Apakah koreksi bias benar-benar masalah besar atau apakah ada sesuatu yang overhyped dalam makalah optimizer Adam?
Hanya agar orang tahu saya sudah berusaha sangat keras untuk memahami kertas asli tetapi saya sudah sangat sedikit dari membaca dan membaca kembali kertas asli. Saya berasumsi beberapa dari pertanyaan ini mungkin dijawab di sana tetapi saya tidak bisa menguraikan jawabannya.
machine-learning
neural-networks
optimization
conv-neural-network
adam
Charlie Parker
sumber
sumber
Jawaban:
Masalahnya TIDAK mengoreksi bias
Menurut kertas
Seperti Mark L. Stone telah berkomentar dengan baik
Entah bagaimana ini tidak persis setara dengan
(tentu saja dapat diubah menjadi bentuk yang sama dengan mengubah aturan pembaruan (lihat pembaruan jawabannya), dan saya percaya baris ini terutama bertujuan menunjukkan perlunya memperkenalkan bias, tetapi mungkin ada baiknya memperhatikan perbedaannya)
Misalnya, momen pertama dikoreksi pada waktu 2
Apakah koreksi bias benar-benar masalah besar
Karena hanya benar-benar memengaruhi beberapa langkah pertama pelatihan, tampaknya bukan masalah yang sangat besar, dalam banyak kerangka kerja populer (misalnya keras , caffe ) hanya estimasi bias yang diterapkan.
Oleh karena itu dapat dilakukan tanpa memperkenalkan istilah bias dan memperbaikinya. Saya pikir makalah ini meletakkannya dalam bentuk koreksi bias untuk kenyamanan membandingkan dengan algoritma lain (misalnya RmsProp).
sumber