Bagaimana seharusnya bias diinisialisasi dan diatur?

13

Saya telah membaca beberapa makalah tentang inisialisasi kernel dan banyak makalah yang menyebutkan bahwa mereka menggunakan L2 regularisasi kernel (seringkali dengan ).λ=0.0001

Adakah yang melakukan sesuatu yang berbeda dari menginisialisasi bias dengan nol konstan dan tidak mengaturnya?

Makalah inisialisasi kernel

Martin Thoma
sumber

Jawaban:

15

Dari Stanford CS231N Notes ( http://cs231n.github.io/neural-networks-2/ ):

Menginisialisasi bias. Adalah mungkin dan umum untuk menginisialisasi bias menjadi nol, karena pemecahan asimetri disediakan oleh angka acak kecil dalam bobot. Untuk non-linearitas ReLU, beberapa orang suka menggunakan nilai konstanta kecil seperti 0,01 untuk semua bias karena ini memastikan bahwa semua unit ReLU menyala pada awalnya dan karenanya memperoleh dan menyebarkan beberapa gradien. Namun, tidak jelas apakah ini memberikan peningkatan yang konsisten (pada kenyataannya beberapa hasil tampaknya menunjukkan bahwa ini berkinerja lebih buruk) dan itu lebih umum untuk hanya menggunakan 0 inisialisasi bias.

Dalam LSTM biasanya menginisialisasi bias menjadi 1 - lihat misalnya http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

Lukas Biewald
sumber