Apakah Normalisasi Batch masuk akal untuk fungsi aktivasi ReLU?

10

Normalisasi Batch dijelaskan dalam makalah ini sebagai normalisasi input ke fungsi aktivasi dengan skala dan variabel bergeserγ dan β. Makalah ini terutama menjelaskan menggunakan fungsi aktivasi sigmoid, yang masuk akal. Namun, bagi saya tampaknya memberi makan input dari distribusi normal yang dihasilkan oleh normalisasi batch menjadi fungsi aktivasi ReLU darimSebuahx(0,x) berisiko jika βtidak belajar untuk menggeser sebagian besar input melewati 0 sehingga ReLU tidak kehilangan informasi input. Yaitu jika input ke ReLU hanya standar dinormalisasi, kami akan kehilangan banyak informasi kami di bawah 0. Apakah ada jaminan atau inisialisasi dariβitu akan menjamin bahwa kami tidak kehilangan informasi ini? Apakah saya kehilangan sesuatu dengan cara pengoperasian BN dan ReLU bekerja?

bnorm
sumber

Jawaban:

3

Itu diketahui masalah dengan fungsi aktivasi ReLU. Ini sering disebut "ReLU yang sedang sekarat". Diberikan input melewati batas nol, unit sekarang hampir selalu tertutup. ReLU yang tertutup tidak dapat memperbarui parameter inputnya, ReLU yang mati tetap mati.

Solusinya adalah dengan menggunakan varian ReLU untuk fungsi aktivasi seperti Leaky ReLU, Noisy ReLUs, atau ELUs .

Brian Spiering
sumber
1

Saya akan mengatakan BN pergi setelah ReLU dan tidak sebelumnya, secara umum harus diletakkan di antara 2 lapisan sehingga untuk menormalkan output layer PDF sebelum menjadi input layer lain

Pemrosesan lapisan konvolutif terdiri dari pemrosesan Lin (Operator Konv) + NonLin (misalnya ReLU) (sebagai Pemrosesan Neuron Buatan) dan nonlin sparsifikasi seperti ReLU menghasilkan output PDF yang non-negatif sebagai hasil penyaringan, jadi sebelum melewatinya sebagai input lapisan berikutnya BN dapat membantu merenormalkan itu

Nicola Bernini
sumber