Jumlah atau rata-rata gradien dalam (mini) gradien batch yang layak?

Ketika saya menerapkan gradien batch mini yang layak, saya hanya rata-rata gradien dari semua contoh dalam batch pelatihan. Namun, saya perhatikan bahwa sekarang tingkat belajar optimal jauh lebih tinggi daripada gradien online yang layak. Intuisi saya adalah ini karena gradien rata-rata kurang berisik dan dengan demikian dapat diikuti lebih cepat. Jadi mungkin juga masuk akal hanya untuk meringkas gradien suatu batch. Nilai-nilai itu bisa positif dan negatif.

Saya tahu itu hanya faktor konstan yang dapat diseimbangkan menggunakan tingkat pembelajaran. Tetapi saya bertanya-tanya definisi mana yang telah disepakati oleh para ilmuwan sehingga saya dapat mereproduksi hasil dari makalah jaringan saraf.

Apakah seseorang biasanya membagi gradien jumlah batch dengan ukuran batch?

neural-networks gradient-descent backpropagation danijar
sumber

Jawaban:

Rata-rata

Contoh: Catatan untuk Kursus Pembelajaran Mesin Andrew Ng di Coursera yang disusun oleh Alex Holehouse.

Menjumlahkan gradien karena masing-masing sampel, Anda mendapatkan gradien yang jauh lebih halus. Semakin besar batch semakin halus gradien yang dihasilkan digunakan dalam memperbarui berat.

Membagi jumlah dengan ukuran bets dan mengambil gradien rata-rata memiliki efek:

Besarnya bobot tidak tumbuh di luar proporsi. Menambahkan regularisasi L2 ke pembaruan berat menghukum nilai bobot besar. Ini sering mengarah pada peningkatan kinerja generalisasi. Mengambil rata-rata, terutama jika gradien terjadi ke arah yang sama, menjaga agar bobotnya tidak terlalu besar.
Besarnya gradien tidak tergantung pada ukuran bets. Ini memungkinkan perbandingan bobot dari percobaan lain menggunakan ukuran batch yang berbeda.
Menghitung pengaruh ukuran bets dengan tingkat pembelajaran dapat setara secara numerik tetapi Anda berakhir dengan tingkat pembelajaran yang spesifik untuk implementasi. Sulit untuk mengomunikasikan hasil Anda dan pengaturan eksperimental jika orang tidak dapat menghubungkan dengan skala parameter yang Anda gunakan dan mereka akan kesulitan mereproduksi percobaan Anda.

Rata-rata memungkinkan komparabilitas yang lebih jelas dan menjaga besaran gradien independen dari ukuran bets. Memilih ukuran kumpulan kadang-kadang dibatasi oleh sumber daya komputasi yang Anda miliki dan Anda ingin mengurangi efek ini ketika mengevaluasi model Anda.

ypx
sumber

Tautannya

tautan yang diperbarui, tidak dapat menautkan ke slide asli lagi, jadi pilih untuk catatan yang dikompilasi dengan baik oleh pilihlah Alex Holehouse .

ypx

Tutorial ini tampaknya pergi untuk penjumlahan bukannya rata-rata .. deeplearning.net/tutorial/gettingstarted.html#regularization