Ketika saya menerapkan gradien batch mini yang layak, saya hanya rata-rata gradien dari semua contoh dalam batch pelatihan. Namun, saya perhatikan bahwa sekarang tingkat belajar optimal jauh lebih tinggi daripada gradien online yang layak. Intuisi saya adalah ini karena gradien rata-rata kurang berisik dan dengan demikian dapat diikuti lebih cepat. Jadi mungkin juga masuk akal hanya untuk meringkas gradien suatu batch. Nilai-nilai itu bisa positif dan negatif.
Saya tahu itu hanya faktor konstan yang dapat diseimbangkan menggunakan tingkat pembelajaran. Tetapi saya bertanya-tanya definisi mana yang telah disepakati oleh para ilmuwan sehingga saya dapat mereproduksi hasil dari makalah jaringan saraf.
Apakah seseorang biasanya membagi gradien jumlah batch dengan ukuran batch?