Kapan menggunakan (He atau Glorot) inisialisasi normal di atas seragam init? Dan apa efeknya dengan Normalisasi Batch?

51

Saya tahu bahwa Residual Network (ResNet) membuatnya inisialisasi normal menjadi populer. Dalam ResNet, inisialisasi normal He digunakan ~~, sedangkan lapisan pertama menggunakan inisialisasi seragam He.~~

Saya telah melihat melalui kertas ResNet dan kertas "Delving Deep into Rectifiers" (Dia menginisialisasi kertas), tetapi saya belum menemukan penyebutan pada init normal vs seragam init.

Juga:

Normalisasi Batch memungkinkan kita untuk menggunakan tingkat pembelajaran yang jauh lebih tinggi dan kurang berhati-hati tentang inisialisasi.

Dalam abstrak makalah Normalisasi Batch, dikatakan bahwa Normalisasi Batch memungkinkan kita untuk kurang berhati-hati dalam inisialisasi.

~~ResNet sendiri masih peduli kapan harus menggunakan init normal vs seragam init (bukan hanya pergi dengan init seragam).~~

Begitu:

Kapan menggunakan (He atau Glorot) inisialisasi terdistribusi normal di atas inisialisasi seragam?
Apa efek inisialisasi terdistribusi normal dengan Normalisasi Batch?

Catatan samping:

Itu berima untuk menggunakan init normal dengan Normalisasi Batch, tapi saya belum menemukan kertas untuk mendukung fakta ini.
Saya tahu bahwa ResNet menggunakan Dia init lebih dari Glorot init karena Dia init melakukan lebih baik pada jaringan yang dalam.
Saya sudah mengerti tentang Glorot init vs He init .
Pertanyaan saya adalah tentang Normal vs Uniform init.

neural-network deep-learning normalization rilut
sumber

34

Init normal vs seragam tampaknya agak tidak jelas.

Jika kita hanya merujuk pada makalah inisialisasi Glorot dan He , keduanya menggunakan analisis teoritik yang serupa: mereka menemukan varian yang baik untuk distribusi dari mana parameter awal diambil. Varians ini disesuaikan dengan fungsi aktivasi yang digunakan dan diturunkan tanpa secara eksplisit mempertimbangkan jenis distribusi. Dengan demikian, kesimpulan teoretisnya berlaku untuk semua jenis distribusi varian yang ditentukan. Bahkan, dalam kertas Glorot, distribusi seragam digunakan sedangkan dalam kertas He itu adalah distribusi yang dipilih. Satu-satunya "penjelasan" yang diberikan untuk pilihan ini dalam makalah He adalah:

CNN mendalam baru-baru ini sebagian besar diinisialisasi dengan bobot acak yang diambil dari distribusi Gaussian

dengan referensi ke kertas AlexNet . Itu memang dirilis sedikit lebih lambat dari inisialisasi Glorot tetapi bagaimanapun tidak ada justifikasi dalam penggunaan distribusi normal.

Bahkan, dalam sebuah diskusi tentang pelacak isu-isu Keras , mereka juga tampaknya sedikit bingung dan pada dasarnya itu hanya masalah pilihan ... (yaitu, secara hipotetis Bengio lebih suka distribusi seragam sedangkan Hinton lebih suka yang normal ...) Salah satu diskusi, ada patokan kecil membandingkan inisialisasi Glorot menggunakan seragam dan distribusi gaussian. Pada akhirnya, tampaknya seragam itu menang tetapi tidak terlalu jelas.

Dalam makalah ResNet asli , hanya mengatakan mereka menggunakan init gaussian He untuk semua layer, saya tidak dapat menemukan di mana tertulis bahwa mereka menggunakan init seragam He untuk layer pertama. (mungkin Anda bisa membagikan referensi untuk ini?)

Adapun penggunaan init gaussian dengan Normalisasi Batch, well, dengan BN proses optimasi kurang sensitif terhadap inisialisasi sehingga hanya sebuah konvensi yang akan saya katakan.

tlorieul
sumber

Saya salah membaca itu. Anda benar bahwa ResNet sama sekali tidak menggunakan inisialisasi seragam. Saya berdiri dikoreksi.

rilut

0

Mohon ambil Hyper-parameter dalam Tindakan! Bagian II - Inisialisasi Berat

batu-batuan
sumber

1

Tolong, hindari memposting tautan yang adil. Tautan apa pun dapat mati setelah beberapa saat dan pembaca baru tidak akan dapat memeriksa jawabannya. Anda dapat memposting tautan, tetapi selalu menambahkan ringkasan dari bagian terpenting sebagai teks juga.

Tasos

@Tasos berkomentar dengan baik. Terlalu banyak informasi untuk diringkas dan itu sebabnya saya memposting tautan dan saya mendapatkan poin Anda tentang tautan yang rusak. Terima kasih.

rocksyne

Kapan menggunakan (He atau Glorot) inisialisasi normal di atas seragam init? Dan apa efeknya dengan Normalisasi Batch?

Jawaban: