Apakah normalisasi batch berarti bahwa sigmoids bekerja lebih baik daripada ReLU?

9

Normalisasi batch dan ReLU adalah solusi untuk masalah gradien yang hilang. Jika kita menggunakan normalisasi batch, haruskah kita menggunakan sigmoids? Atau adakah fitur ReLU yang menjadikannya berharga bahkan ketika menggunakan batchnorm?

Saya kira normalisasi yang dilakukan dalam batchnorm akan mengirimkan nol aktivasi negatif. Apakah itu berarti bahwa batchnorm menyelesaikan masalah "dead ReLU"?

Namun sifat tanh dan logistik yang terus menerus tetap menarik. Jika saya menggunakan batchnorm, apakah tanh akan bekerja lebih baik daripada ReLU?

Saya yakin jawabannya tergantung . Jadi, apa yang berhasil dalam pengalaman Anda, dan apa saja fitur menonjol dari aplikasi Anda?

generic_user
sumber
Bahkan jika makalah menyarankan untuk menggunakan BatchNorm sebelum aktivasi, telah ditemukan dalam praktiknya bahwa solusi yang lebih baik dihasilkan jika BN diterapkan setelahnya. Jika saya tidak mengabaikan sesuatu yang seharusnya berarti, bahwa dalam kasus terakhir, BN tidak berpengaruh pada aktivasi. Tapi tentu saja, ini adalah pertanyaan terbuka, apakah BN akan bekerja lebih baik ketika diterapkan sebelum dan dengan aktivasi lain daripada ReLU. Menurut saya, tidak. Karena ReLU masih memiliki kelebihan lain, seperti derivasi yang lebih sederhana. Tapi saya juga penasaran. Mungkin seseorang membuat pengalaman di bidang ini.
oezguensi

Jawaban:

1

Lihat, konsep dasar di balik normalisasi batch adalah bahwa (kutipan dari artikel Medium) -

Kami menormalkan lapisan input kami dengan menyesuaikan dan menskalakan aktivasi. Misalnya, ketika kita memiliki fitur dari 0 hingga 1 dan beberapa dari 1 hingga 1000, kita harus menormalkannya untuk mempercepat pembelajaran. Jika layer input mendapatkan manfaat darinya, mengapa tidak melakukan hal yang sama juga untuk nilai-nilai di lapisan tersembunyi, yang berubah sepanjang waktu, dan dapatkan 10 kali atau lebih peningkatan dalam kecepatan pelatihan.

Baca artikel di sini.

frSebuahc1/(1+1/e)

Orang gila
sumber
0

orang gila menjawab pertanyaan Anda tentang normalisasi batch dengan benar dan biarkan saya menjawab bagian kedua Anda bahwa bagaimana fungsi kontinu tampaknya menarik tetapi relu lebih baik daripada semua dari mereka dan pernyataan ini bukan dari sisi saya MR. Hinton mengutipnya, "kami adalah orang-orang bodoh yang menggunakan sigmoid sebagai fungsi aktivasi dan butuh waktu 30 tahun untuk mewujudkan itu tanpa memahami bentuknya, tidak akan pernah membiarkan neuron Anda dalam keadaan belajar yang selalu jenuh, begitu juga turunan dan dia menyebut dirinya sendiri dan semua orang yang tercengang ". Jadi memilih fungsi aktivasi hanya karena itu terus menerus dan tidak melihat bagaimana itu akan mempengaruhi neuron Anda '

Catatan: Jika Anda mempelajari jaring saraf saya akan menyarankan Anda untuk berpikir jaring saraf sebagai fungsi komposit yang besar dan dalam sehingga untuk memahami apa yang berhasil dan mengapa itu bekerja, Anda perlu memahami bagaimana jaring saraf menciptakan banyak data dalam beberapa dimensi yang lebih tinggi "mewakili "data di mana kebaikan berlipat ganda tergantung pada pilihan fungsi Anda dan bagaimana suatu fungsi mengubah output fungsi lain ketika diberikan padanya sebagai input.

khwaja wisal
sumber