Saya telah membaca beberapa makalah tentang inisialisasi kernel dan banyak makalah yang menyebutkan bahwa mereka menggunakan L2 regularisasi kernel (seringkali dengan ).
Adakah yang melakukan sesuatu yang berbeda dari menginisialisasi bias dengan nol konstan dan tidak mengaturnya?
Makalah inisialisasi kernel
- Mishkin dan Matas: Yang Anda butuhkan adalah init yang bagus
- Xavier Glorot dan Yoshua Bengio: Memahami kesulitan melatih jaringan saraf umpan dalam
- Dia et al: Menggali Jauh ke dalam Penyearah: Melampaui Kinerja Level Manusia di Klasifikasi ImageNet
sumber