Neural Networks: Apakah zaman dalam SGD sama dengan zaman dalam mini-batch?

8

Dalam SGD suatu jaman akan menjadi presentasi penuh dari data pelatihan, dan kemudian akan ada pembaruan bobot N per jaman (jika ada contoh data N dalam set pelatihan).

Jika sekarang kita melakukan mini-batch sebagai gantinya, katakan dalam batch 20. Apakah satu zaman sekarang terdiri dari pembaruan berat N / 20, atau apakah suatu zaman 'diperpanjang' oleh 20 sehingga berisi jumlah pembaruan berat yang sama?

Saya menanyakan hal ini karena dalam beberapa makalah pembelajaran tampaknya terlalu cepat untuk jumlah zaman yang disebutkan.

James
sumber
Pertanyaannya lebih pada konvensi, yaitu jika seseorang menyatakan mereka telah melatih jaringan selama 10 zaman menggunakan mini-batch 20, apakah ini berarti telah ada pembaruan berat 10 * N, atau 10 * N / 20?
James
Begitu ya , maaf atas kebingungannya, mungkin stats.stackexchange.com/a/164875/12359 menjawab pertanyaan Anda?
Franck Dernoncourt

Jawaban:

6

Dalam terminologi jaringan saraf:

  • satu zaman = satu umpan maju dan satu umpan mundur dari semua contoh pelatihan
  • ukuran kumpulan = jumlah contoh pelatihan dalam satu gerakan maju / mundur. Semakin tinggi ukuran batch, semakin banyak ruang memori yang Anda butuhkan.
  • jumlah iterasi = jumlah lintasan, setiap lintasan menggunakan jumlah contoh [ukuran batch]. Untuk menjadi jelas, satu pass = satu pass maju + satu pass mundur (kami tidak menghitung forward pass dan backward pass sebagai dua pass yang berbeda).

Contoh: jika Anda memiliki 1000 contoh pelatihan, dan ukuran batch Anda adalah 500, maka akan dibutuhkan 2 iterasi untuk menyelesaikan 1 zaman.

Franck Dernoncourt
sumber
1

Jawaban Franck tidak benar. Butuh keberanian untuk mengatakan ini karena dia memiliki lebih banyak perwakilan daripada saya dan banyak orang sudah memilihnya.

Epoch adalah kata yang berarti melewati satu set pelatihan, tidak semua contoh pelatihan.

Jadi iya. Jika kita melakukan GD batch mini bukan batch GD, katakanlah dalam batch 20, Satu zaman sekarang terdiri dari pembaruan berat N / 20. N adalah jumlah total sampel.

Untuk menjadi verbose, Dalam turunan gradient batch, satu lintasan melalui pelatihan memungkinkan Anda untuk mengambil hanya satu langkah gradient descent. Dengan penurunan gradien mini-batch (ukuran batch = 5.000), satu lintasan tunggal melalui set pelatihan, yang merupakan satu zaman, memungkinkan Anda untuk mengambil 5.000 langkah penurunan gradien.

Aerin
sumber