Saat melatih jaringan saraf, satu hyperparameter adalah ukuran minibatch. Pilihan umum adalah 32, 64 dan 128 elemen per batch mini.
Apakah ada aturan / pedoman seberapa besar mini-batch seharusnya? Adakah publikasi yang menyelidiki efeknya terhadap pelatihan?
neural-network
deep-learning
convnet
optimization
Martin Thoma
sumber
sumber
Jawaban:
Dalam Pelatihan On-Batch Besar untuk Pembelajaran Jauh: Kesenjangan Generalisasi dan Sharp Minima ada beberapa pernyataan simpang siur:
Dari tesis master saya : Oleh karena itu pilihan ukuran mini-batch mempengaruhi:
Penting untuk mencatat interaksi hyper-parameter : Ukuran batch dapat berinteraksi dengan hyper-parameter lainnya, terutama tingkat pembelajaran. Dalam beberapa percobaan interaksi ini mungkin mempersulit untuk mengisolasi efek ukuran bets sendirian pada kualitas model. Interaksi kuat lainnya adalah dengan penghentian awal untuk regularisasi.
Lihat juga
sumber