Normalisasi batch dan ReLU adalah solusi untuk masalah gradien yang hilang. Jika kita menggunakan normalisasi batch, haruskah kita menggunakan sigmoids? Atau adakah fitur ReLU yang menjadikannya berharga bahkan ketika menggunakan batchnorm?
Saya kira normalisasi yang dilakukan dalam batchnorm akan mengirimkan nol aktivasi negatif. Apakah itu berarti bahwa batchnorm menyelesaikan masalah "dead ReLU"?
Namun sifat tanh dan logistik yang terus menerus tetap menarik. Jika saya menggunakan batchnorm, apakah tanh akan bekerja lebih baik daripada ReLU?
Saya yakin jawabannya tergantung . Jadi, apa yang berhasil dalam pengalaman Anda, dan apa saja fitur menonjol dari aplikasi Anda?
deep-learning
batch-normalization
generic_user
sumber
sumber
Jawaban:
Lihat, konsep dasar di balik normalisasi batch adalah bahwa (kutipan dari artikel Medium) -
Baca artikel di sini.
sumber
orang gila menjawab pertanyaan Anda tentang normalisasi batch dengan benar dan biarkan saya menjawab bagian kedua Anda bahwa bagaimana fungsi kontinu tampaknya menarik tetapi relu lebih baik daripada semua dari mereka dan pernyataan ini bukan dari sisi saya MR. Hinton mengutipnya, "kami adalah orang-orang bodoh yang menggunakan sigmoid sebagai fungsi aktivasi dan butuh waktu 30 tahun untuk mewujudkan itu tanpa memahami bentuknya, tidak akan pernah membiarkan neuron Anda dalam keadaan belajar yang selalu jenuh, begitu juga turunan dan dia menyebut dirinya sendiri dan semua orang yang tercengang ". Jadi memilih fungsi aktivasi hanya karena itu terus menerus dan tidak melihat bagaimana itu akan mempengaruhi neuron Anda '
Catatan: Jika Anda mempelajari jaring saraf saya akan menyarankan Anda untuk berpikir jaring saraf sebagai fungsi komposit yang besar dan dalam sehingga untuk memahami apa yang berhasil dan mengapa itu bekerja, Anda perlu memahami bagaimana jaring saraf menciptakan banyak data dalam beberapa dimensi yang lebih tinggi "mewakili "data di mana kebaikan berlipat ganda tergantung pada pilihan fungsi Anda dan bagaimana suatu fungsi mengubah output fungsi lain ketika diberikan padanya sebagai input.
sumber