Apa penjelasan dari contoh mengapa normalisasi bets harus dilakukan dengan hati-hati?

Saya sedang membaca makalah normalisasi batch [1] dan ada satu bagian di mana melewati contoh, mencoba menunjukkan mengapa normalisasi harus dilakukan dengan hati-hati. Jujur saya, tidak bisa mengerti bagaimana contoh ini bekerja dan saya benar-benar sangat ingin tahu mereka menulis sebanyak yang saya bisa. Pertama-tama izinkan saya mengutipnya di sini:

Misalnya, pertimbangkan layer dengan input u yang menambahkan bias yang dipelajari b, dan menormalkan hasilnya dengan mengurangi rata-rata aktivasi yang dihitung atas data pelatihan: mana adalah himpunan nilai atas himpunan pelatihan, dan . Jika langkah gradient descent mengabaikan ketergantungan pada , maka ia akan memperbarui , di mana . Kemudian . Dengan demikian, kombinasi pembaruan menjadi $\hat{x} = x − E[x]$ $x=u+b, X =\{x_1...N \}$ $x$ $E[x] = \sum^N_{i=1} x_i$ $E[x]$ $b$ $b ← b + \Delta > b$ $\Delta b \propto -\frac{\partial l}{\partial \hat{x}}$ $u+(b+\Delta b)−E[u+(b+\Delta b)] = u+b−E[u+b]$ $b$ dan perubahan normalisasi selanjutnya menyebabkan tidak ada perubahan dalam output lapisan atau, akibatnya, hilangnya.

Saya pikir saya mengerti pesannya, bahwa jika seseorang tidak melakukan normalisasi dengan benar, itu bisa buruk. Saya hanya tidak bagaimana contoh yang mereka gunakan menggambarkan ini.

Saya sadar bahwa itu sulit untuk membantu seseorang jika mereka tidak lebih spesifik tentang apa yang membingungkan mereka sehingga saya akan memberikan pada bagian selanjutnya, hal-hal yang membingungkan saya tentang penjelasan mereka.

Saya pikir sebagian besar kebingungan saya mungkin notasi, jadi saya akan mengklarifikasi.

Pertama, saya pikir salah satu hal yang banyak membingungkan saya adalah apa artinya bagi penulis untuk memiliki unit di jaringan dan apa itu aktivasi. Biasanya, saya menganggap aktivasi sebagai:

x^{(l)} = a^{(l)} = θ (z^{(l)}) = θ (⟨ w^{(l)}, x^{(l - 1)} ⟩ + b^{(l)})

$x^{(l)} = a^{(l)} = \theta(z^{(l)}) = \theta( \langle w^{(l)}, x^{(l-1)} \rangle + b^{(l)})$

di mana adalah vektor fitur mentah dari lapisan input pertama. $x^{(0)} = a^{(0)} = x$

Juga, saya pikir salah satu hal pertama yang membingungkan saya (karena alasan sebelumnya) adalah skenario apa yang mereka coba jelaskan sebenarnya. Ia mengatakan:

menormalkan hasil dengan mengurangi rata-rata aktivasi dihitung atas data pelatihan: mana $\hat{x} = x − E[x]$ $x=u+b$

Saya pikir apa yang mereka coba katakan adalah bahwa alih-alih menggunakan aktivasi seperti yang dihitung oleh forward pass, seseorang melakukan semacam "normalisasi" dengan mengurangi rata-rata aktivasi : $x^{(l)} = a^{(l)}$

{\bar{x}}^{l} = {\bar{a}}^{l} = \frac{1}{N} \sum_{i = 1}^{N} {\bar{a}}^{l} = \frac{1}{N} \sum_{i = 1}^{N} {\bar{x}}^{l}

$\bar{x}^{l} = \bar{a}^{l} = \frac{1}{N} \sum^{N}_{i=1} \bar{a}^{l} = \frac{1}{N} \sum^{N}_{i=1} \bar{x}^{l}$

dan kemudian meneruskannya ke algoritma back-propagation. Atau setidaknya itulah yang masuk akal bagi saya.

Terkait dengan ini, saya kira apa yang mereka sebut mungkin ? Itulah yang saya kira karena mereka menyebutnya "input" dan memiliki persamaan (saya kira mereka menggunakan unit aktivasi identitas / linier untuk jaringan saraf mereka? Mungkin). $u$ $x^{(l)}$ $x = u + b$

Untuk lebih membingungkan saya, mereka mendefinisikan sebagai sesuatu yang proporsional dengan turunan parsial, tetapi turunan parsial dihitung sehubungan dengan , yang tampaknya benar-benar aneh bagi saya. Biasanya, turunan parsial ketika menggunakan gradient descent adalah sehubungan dengan parameter jaringan. Dalam kasus offset, saya akan berpikir: $\Delta b$ $\hat{x}$

Δ b^{(l)} \propto - \frac{\partial l}{\partial b^{(l)}}

$\Delta b^{(l)} \propto -\frac{\partial l}{\partial b^{(l)} }$

lebih masuk akal daripada mengambil turunan sehubungan dengan aktivasi yang dinormalisasi. Saya mencoba memahami mengapa mereka mengambil turunan sehubungan dengan dan saya pikir mungkin mereka mengacu pada delta ketika mereka menulis sejak biasanya itu adalah satu-satunya bagian dari algoritma back-prop yang memiliki turunan sehubungan dengan pra-aktivasi karena persamaan delta adalah: $\hat{x}$ $\frac{ \partial l }{ \partial \hat{x} }$

δ_{j}^{(l)} = \frac{\partial L}{\partial z_{j}^{(l)}}

$\delta^{(l)}_j = \frac{\partial L}{\partial z^{(l)}_j}$

Hal lain yang membingungkan saya adalah:

Kemudian . $u + (b + \Delta b) - E[u + (b + \Delta b)] = u + b - E[u + b]$

mereka tidak benar-benar mengatakan apa yang mereka coba hitung dalam persamaan di atas, tetapi saya akan menyimpulkan bahwa mereka mencoba menghitung aktivasi dinormalisasi yang diperbarui (untuk lapisan pertama?) setelah diperbarui ke ? Tidak yakin apakah saya membeli poin mereka karena saya pikir persamaan yang benar seharusnya: $b$ $b + \Delta b$

\hat{x} = θ (u + (b + Δ b)) - E [θ (u + (b + Δ b))]

$\hat{x} = \theta( u + (b + \Delta b) ) - E[\theta( u + (b + \Delta b) )]$

yang tidak membatalkan perubahan pada parameter . Namun, saya tidak benar-benar tahu apa yang mereka lakukan jadi saya hanya menebak. Apa sebenarnya persamaan yang telah mereka tulis? $\Delta b$ $b$

Saya tidak yakin apakah ini pemahaman yang benar, tetapi saya telah memikirkan contoh mereka. Tampaknya contoh mereka tidak memiliki unit aktivasi non-linear (menggunakan identitas) dan mereka berbicara tentang lapisan input pertama saja? Karena mereka meninggalkan banyak detail dan notasi tidak begitu jelas, saya tidak bisa menyimpulkan apa yang mereka bicarakan. Apakah ada yang tahu bagaimana mengekspresikan contoh ini dengan notasi yang mengungkapkan apa yang terjadi di setiap lapisan? Apakah seseorang mengerti apa yang sebenarnya terjadi dengan contoh itu dan ingin membagikan kebijaksanaan mereka kepada saya?

[1]: Ioffe S. dan Szegedy C. (2015),
"Normalisasi Batch: Mempercepat Pelatihan Jaringan Dalam dengan Mengurangi Pergeseran Kovarian Internal",
Prosiding Konferensi Internasional ke-32 tentang Pembelajaran Mesin , Lille, Prancis, 2015.
Jurnal Pembelajaran Mesin Penelitian: W&CP volume 37

machine-learning neural-networks conv-neural-network Charlie Parker
sumber

Saya pikir sifat notasi paragraf itu sudah jelas sekarang tetapi pesan yang ingin disampaikannya dan tujuannya kurang jelas.

Charlie Parker

Saya pikir inti dari paragraf ini adalah, jika langkah gradient descent mengabaikan ketergantungan pada , memperbarui istilah bias b tidak akan menyebabkan perubahan pada output $E[x]$ $b$ , seperti diklaim dalam kalimat sebelumnya,

Namun, jika modifikasi ini diselingi dengan langkah-langkah optimasi, maka langkah penurunan gradien dapat mencoba untuk memperbarui parameter dengan cara yang mengharuskan normalisasi diperbarui, yang mengurangi efek langkah gradien.

Oleh karena itu mereka membuat langkah gradient descent menyadari normalisasi dalam metode mereka.

Tentang pertanyaan Anda

Terkait dengan ini, saya kira apa yang mereka sebut mungkin ? $u$ $x^{(l)}$

Seperti diklaim dalam kalimat pertama mereka, adalah input dari layer. Apa sebenarnya tidak menjadi masalah, karena mereka menggambarkan hanya efek dalam contoh. $u$ $u$ $b$

Saya akan berpikir lebih masuk akal daripada mengambil turunan sehubungan dengan aktivasi yang dinormalisasi. $\Delta b \propto -\frac{\partial l}{\partial b }$

Kita tahu , karena kita mengabaikan ketergantungan pada , kita memiliki jadi . $\hat{x}=x-E[x]=u+b-E[x]$ $E[x]$ $b$

\frac{\partial l}{\partial b} = \frac{\partial l}{\partial \hat{x}} \frac{\partial \hat{x}}{\partial b} = \frac{\partial l}{\partial \hat{x}},

$\frac{\partial l}{\partial b}=\frac{\partial l}{\partial \hat{x}}\frac{\partial \hat{x}}{\partial b} = \frac{\partial l}{\partial \hat{x}},$

Δ b \propto - \frac{\partial l}{\partial \hat{x}}

$\Delta b \propto -\frac{\partial l}{\partial \hat{x}}$

$u + (b + \Delta b) - E[u + (b + \Delta b)] = u + b - E[u + b]$ mereka tidak benar-benar mengatakan apa yang mereka coba hitung dalam persamaan di atas tetapi Saya akan menyimpulkan bahwa mereka mencoba untuk menghitung aktivasi dinormalisasi diperbarui (untuk lapisan pertama?) Setelah diperbarui ke ? $b$ $b+\Delta b$

Ini menghitung setelah diperbarui ke , untuk menunjukkan bahwa jika langkah gradient descent mengabaikan ketergantungan pada , memperbarui istilah bias b akan menyebabkan tidak ada perubahan dalam keluaran. $\hat{x}$ $b$ $b+\Delta b$ $E[x]$ $b$

Mungkin bermanfaat untuk melihat beberapa implementasi open source dari normalisasi batch, misalnya di Lasagne dan Keras .

Ada pertanyaan lain yang mungkin tampak terkait, Mengapa mengambil gradien momen (mean dan varians) saat menggunakan Batch Normalisasi di Jaringan Saraf Tiruan?

dontloo
sumber

jadi saya kira maksud mereka adalah bahwa mereka perlu membuat pembaruan GD menyadari normalisasi sehingga kerugian berubah saat memperbarui bias? Atau apa tujuan utama paragraf itu?

Charlie Parker

@CharlieParker ya saya kira begitu, untuk menunjukkan ada alasan untuk membuat pembaruan GD menyadari normalisasi (IMO).

dontloo

Apakah E [Δb] = Δb? Jika demikian, mengapa?

MichaelSB

Apa penjelasan dari contoh mengapa normalisasi bets harus dilakukan dengan hati-hati?

Jawaban: