Ketika menerapkan gradient descent mini-batch untuk jaringan saraf, apakah penting untuk mengambil elemen acak di setiap mini-batch? Atau apakah cukup dengan mengocok elemen di awal pelatihan satu kali?
(Saya juga tertarik pada sumber yang jelas mengatakan apa yang mereka lakukan.)
sumber