Saya telah membangun beberapa model untuk sebuah proyek, tetapi saya tidak dapat membungkus kepala saya dengan matematika dari algoritma Adagrad dan Adadelta.
Saya mengerti bagaimana cara kerja gradient descent vanilla dan saya telah menulis kode untuk membuatnya bekerja dengan sukses.
Saya akan berterima kasih jika ada yang menjelaskan dua hal ini kepada saya atau menyediakan sumber daya untuk memahaminya.
machine-learning
gradient-descent
Hazarika Melayu
sumber
sumber
Jawaban:
Berkenaan dengan sumber daya:
Berikut adalah beberapa kutipan utama dari ADADELTA: Metode Tingkat Pembelajaran Adaptif , bersama dengan beberapa contoh dan penjelasan singkat:
ADAGRAD
Yaitu jika gradien dalam tiga langkah pertama adalahg1=⎛⎝Sebuah1b1c1⎞⎠,g2=⎛⎝Sebuah2b2c2⎞⎠,g3=⎛⎝Sebuah3b3c3⎞⎠ , kemudian:
Masalah ADAGRAD yang coba dilawan oleh ADADELTA
Kelemahan kedua cukup jelas.
Berikut adalah contoh ketika kelemahan pertama adalah masalah:g2 jauh lebih besar dari nilai absolut dari masing-masing komponen gradien pada langkah lainnya. t > 2 , itu menyatakan bahwa setiap komponen ∑tτ= 1g2τ-------√ lebih besar dari nilai absolut dari masing - masing komponen g2 . Tetapi nilai absolut dari setiap komponeng2 jauh lebih besar dari nilai absolut dari masing - masing komponen gt , dan sebagainya Δxt sangat kecil. Δxt menjadi lebih kecil dan lebih kecil.
Pertimbangkan kasus di mana nilai absolut dari setiap komponen
Untuk apapun
Selain itu, seiring dengan kemajuan algoritma, semakin dekat ke minimum, sehingga gradien semakin kecil, dan seterusnya
Jadi, mungkin saja algoritma tersebut hampir macet sebelum mencapai minimum.
ADADELTA
Alih-alih mempertimbangkan semua gradien yang dihitung, ADADELTA hanya mempertimbangkan yang terakhirw gradien.
(RMS singkatan dari Root Mean Square .)
Demikian pula:
Yaitu jika gradien dalam langkahr adalah gr=⎛⎝Sebuahrbrcr⎞⎠ dan Δxr=⎛⎝sayarjrkr⎞⎠ , kemudian:
Oleh karena itu, dikalikan dengan kekuatan tinggi
Membiarkan
Sekarang, kita bisa memperkirakan
sumber
Dari quora Anda akan menemukan panduan yang lebih lengkap, tetapi ide utamanya adalah bahwa AdaGrad mencoba untuk menandai masalah ini dalam pemilihan tingkat gradien pembelajaran dalam pembelajaran mesin:
1 Pemilihan tingkat pembelajaran secara manual η.
2 Vektor gradien gt diskalakan secara seragam oleh tingkat pembelajaran skalar η.
3 Tingkat pembelajaran η tetap konstan selama proses pembelajaran.
Itu sendiri memiliki masalah berikut:
1 Tingkat pembelajaran yang terus membusuk η.
2 Pemilihan tingkat pembelajaran secara manual η.
Solusi Concern 2 berkaitan dengan ketidakcocokan dalam satuan gradien dan karenanya
Perhitungan terakhir membutuhkan pemahaman tentang teori momentum dan itu dijelaskan secara singkat di artikel.
Gagasan saya adalah untuk memberikan penyebab utama di balik apa yang dimaksudkan, mungkin itu membuat membaca lebih mudah.
sumber