Bagaimana seharusnya bias diinisialisasi dan diatur?

Saya telah membaca beberapa makalah tentang inisialisasi kernel dan banyak makalah yang menyebutkan bahwa mereka menggunakan L2 regularisasi kernel (seringkali dengan ). $\lambda = 0.0001$

Adakah yang melakukan sesuatu yang berbeda dari menginisialisasi bias dengan nol konstan dan tidak mengaturnya?

Makalah inisialisasi kernel

Mishkin dan Matas: Yang Anda butuhkan adalah init yang bagus
Xavier Glorot dan Yoshua Bengio: Memahami kesulitan melatih jaringan saraf umpan dalam
Dia et al: Menggali Jauh ke dalam Penyearah: Melampaui Kinerja Level Manusia di Klasifikasi ImageNet

neural-network Martin Thoma
sumber

Jawaban:

Dari Stanford CS231N Notes ( http://cs231n.github.io/neural-networks-2/ ):

Menginisialisasi bias. Adalah mungkin dan umum untuk menginisialisasi bias menjadi nol, karena pemecahan asimetri disediakan oleh angka acak kecil dalam bobot. Untuk non-linearitas ReLU, beberapa orang suka menggunakan nilai konstanta kecil seperti 0,01 untuk semua bias karena ini memastikan bahwa semua unit ReLU menyala pada awalnya dan karenanya memperoleh dan menyebarkan beberapa gradien. Namun, tidak jelas apakah ini memberikan peningkatan yang konsisten (pada kenyataannya beberapa hasil tampaknya menunjukkan bahwa ini berkinerja lebih buruk) dan itu lebih umum untuk hanya menggunakan 0 inisialisasi bias.

Dalam LSTM biasanya menginisialisasi bias menjadi 1 - lihat misalnya http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

Lukas Biewald
sumber