Pertanyaan yang diberi tag batch-normalization

21
Bagaimana dan mengapa Normalisasi Batch menggunakan rata-rata bergerak untuk melacak keakuratan model saat melatih?

Saya membaca makalah normalisasi batch (BN) (1) dan tidak mengerti perlunya menggunakan moving average untuk melacak akurasi model dan bahkan jika saya menerima bahwa itu adalah hal yang benar untuk dilakukan, saya tidak mengerti apa yang sebenarnya mereka lakukan. Menurut pemahaman saya (yang...

8
Apakah ada cara untuk berurusan dengan gradien menghilang untuk menjenuhkan non-linearitas yang tidak melibatkan unit Normalisasi Batch atau ReLu?

Saya ingin melatih jaringan dengan non-linearitas yang menderita menghilangnya (atau meledak masalah gradien meskipun sebagian besar menghilang). Saya tahu bahwa cara standar (saat ini) adalah dengan menggunakan normalisasi batch 1 [BN] 1 atau hanya meninggalkan non-linearitas dan menggunakan unit...