Mengapa norma batch memiliki skala dan pergeseran yang dapat dipelajari?

Sejauh yang saya mengerti, norma batch menormalkan semua fitur input ke layer ke distribusi normal unit, . Mean dan varians diperkirakan dengan mengukur nilainya untuk mini-batch saat ini. $\mathcal{N}(\mu=0,\sigma=1)$ $\mu, \sigma^2$

Setelah normalisasi input diskalakan dan digeser dengan nilai skalar:

{\hat{x}}_{i}^{'} = γ {\hat{x}}_{i} + β

$\hat{x}_i' = \gamma \hat{x}_i + \beta$

(Koreksi saya jika saya salah di sini - di sinilah saya mulai agak tidak yakin.)

$\gamma$ dan adalah nilai skalar dan ada pasangan masing-masing untuk setiap lapisan batch-normed. Mereka dipelajari bersama dengan bobot menggunakan backprop dan SGD. $\beta$

Pertanyaan saya adalah, bukankah parameter ini berlebihan karena input dapat diskalakan dan digeser dengan cara apa pun oleh bobot pada lapisan itu sendiri. Dengan kata lain, jika

y = W {\hat{x}}^{'} + b

$y = W \hat{x}' + b$

dan

{\hat{x}}^{'} = γ \hat{x} + β

$\hat{x}' = \gamma \hat{x} + \beta$

kemudian

y = W^{'} \hat{x} + b^{'}

$y = W' \hat{x} + b'$

di mana dan . $W' = W\gamma$ $b'=W\beta + b$

Jadi apa gunanya menambahkan mereka dari jaringan yang sudah mampu mempelajari skala dan pergeseran? Atau apakah saya benar-benar salah paham?

batch-normalization Timmmm
sumber

Jawaban:

Ada jawaban sempurna dalam Buku Pembelajaran Mendalam, Bagian 8.7.1 :

Normalisasi mean dan standar deviasi suatu unit dapat mengurangi daya ekspresif dari jaringan saraf yang mengandung unit itu. Untuk mempertahankan kekuatan ekspresif jaringan, adalah umum untuk mengganti batch aktivasi unit tersembunyi H dengan γH + β daripada sekadar H. yang dinormalisasi. Variabel γ dan β adalah parameter yang dipelajari yang memungkinkan variabel baru memiliki rata-rata dan standar deviasi. Pada pandangan pertama, ini mungkin tampak tidak berguna - mengapa kita menetapkan mean ke 0, dan kemudian memperkenalkan parameter yang memungkinkannya untuk diatur kembali ke nilai β yang berubah-ubah?

Jawabannya adalah bahwa parametrization baru dapat mewakili keluarga fungsi input yang sama dengan parametrization lama, tetapi parametrization baru memiliki dinamika pembelajaran yang berbeda. Dalam parametriisasi lama, rata-rata H ditentukan oleh interaksi yang rumit antara parameter dalam lapisan di bawah H. Dalam parametriisasi baru, rata-rata γH + β ditentukan semata-mata oleh β. Parameterisasi baru jauh lebih mudah dipelajari dengan gradient descent.

Timmmm
sumber