Apakah jaringan saraf yang dirancang secara optimal tidak mengandung neuron ReLU "mati" ketika dilatih?

Ada perbedaan antara ReLU yang mati dan ReLU yang diam pada banyak - tetapi tidak semua - input. Dead ReLUs harus dihindari, sedangkan ReLUs yang paling sunyi dapat berguna karena jarangnya mereka diinduksi.

Dead ReLUs telah memasuki rezim parameter di mana mereka selalu berada dalam domain negatif dari fungsi aktivasi. Ini bisa terjadi, misalnya, jika bias diatur ke nilai negatif yang besar. Karena fungsi aktivasi nol untuk nilai negatif, unit-unit ini diam untuk semua input. Ketika ReLU diam, gradien dari fungsi kerugian sehubungan dengan parameter adalah nol, jadi tidak ada pembaruan parameter yang akan terjadi dengan pembelajaran berbasis gradien. Karena ReLU yang mati diam untuk semua input, mereka terjebak dalam rezim ini.

Bandingkan ini dengan ReLU yang diam pada banyak tapi tidak semua input. Dalam hal ini, gradien masih nol ketika unit diam. Jika kita menggunakan prosedur pembelajaran online seperti minibatch / stochastic gradient descent, tidak akan ada pembaruan parameter untuk input yang menyebabkan unit menjadi diam. Namun, pembaruan masih dimungkinkan untuk input lain, di mana unit aktif dan gradiennya bukan nol.

Karena ReLU yang mati diam untuk semua input, mereka tidak berkontribusi apa pun pada jaringan, dan terbuang sia-sia. Dari perspektif teori informasi, setiap unit yang memiliki nilai output yang sama untuk semua input (apakah nol atau tidak) tidak membawa informasi tentang input. ReLU yang paling hening berperilaku berbeda untuk input yang berbeda, dan karenanya menjaga kemampuan untuk membawa informasi yang berguna.

pengguna20160
sumber

Apakah jaringan saraf yang dirancang secara optimal tidak mengandung neuron ReLU "mati" ketika dilatih?

Jawaban: