Dalam SGD suatu jaman akan menjadi presentasi penuh dari data pelatihan, dan kemudian akan ada pembaruan bobot N per jaman (jika ada contoh data N dalam set pelatihan).
Jika sekarang kita melakukan mini-batch sebagai gantinya, katakan dalam batch 20. Apakah satu zaman sekarang terdiri dari pembaruan berat N / 20, atau apakah suatu zaman 'diperpanjang' oleh 20 sehingga berisi jumlah pembaruan berat yang sama?
Saya menanyakan hal ini karena dalam beberapa makalah pembelajaran tampaknya terlalu cepat untuk jumlah zaman yang disebutkan.
Jawaban:
Dalam terminologi jaringan saraf:
Contoh: jika Anda memiliki 1000 contoh pelatihan, dan ukuran batch Anda adalah 500, maka akan dibutuhkan 2 iterasi untuk menyelesaikan 1 zaman.
sumber
Jawaban Franck tidak benar. Butuh keberanian untuk mengatakan ini karena dia memiliki lebih banyak perwakilan daripada saya dan banyak orang sudah memilihnya.
Epoch adalah kata yang berarti melewati satu set pelatihan, tidak semua contoh pelatihan.
Jadi iya. Jika kita melakukan GD batch mini bukan batch GD, katakanlah dalam batch 20, Satu zaman sekarang terdiri dari pembaruan berat N / 20. N adalah jumlah total sampel.
Untuk menjadi verbose, Dalam turunan gradient batch, satu lintasan melalui pelatihan memungkinkan Anda untuk mengambil hanya satu langkah gradient descent. Dengan penurunan gradien mini-batch (ukuran batch = 5.000), satu lintasan tunggal melalui set pelatihan, yang merupakan satu zaman, memungkinkan Anda untuk mengambil 5.000 langkah penurunan gradien.
sumber