Sepengetahuan saya, hal yang paling dekat dengan apa yang mungkin Anda cari adalah artikel baru-baru ini oleh para peneliti Google: Normalisasi Batch: Mempercepat Pelatihan Jaringan Dalam dengan Mengurangi Pergeseran Kovarian Internal .
Normalisasi Batch
lyl= f( Wx + b )fW, bx
Apa yang dilakukan Normalisasi Batch (BN) adalah sebagai berikut:
- Wx + bx^x^Wx + b
- x^→ γx^+ β.
- y^l=f( γx^+β)
Jadi, BN menstandarisasi output aktivasi "mentah" (baca: sebelum kita menerapkan nonlinier) memiliki rata-rata nol, varian 1, dan kemudian kita menerapkan transformasi afin yang dipelajari, dan akhirnya kita menerapkan nonlinier. Dalam beberapa hal kita dapat menafsirkan ini sebagai memungkinkan jaringan saraf untuk mempelajari distribusi input parameter yang sesuai untuk nonlinier.
γ, β
Motivasi Transformasi Affine
βγ
Standarisasi Pertama
γ, β, mereka sebenarnya belajar transformasi di mana mereka menggunakan transformasi identitas sebagai referensi atau dasar untuk perbandingan. Rekan penulis Microsoft percaya bahwa memiliki referensi atau garis dasar ini membantu pra-kondisi masalah. Saya tidak percaya bahwa terlalu jauh untuk bertanya-tanya apakah sesuatu yang serupa terjadi di sini dengan BN dan langkah standardisasi awal.
Aplikasi BN
Hasil yang sangat menarik adalah bahwa dengan menggunakan Normalisasi Batch, tim Google bisa mendapatkan jaringan Inception tanh untuk berlatih di ImageNet dan mendapatkan hasil yang cukup kompetitif. Tanh adalah nonlinier jenuh dan sulit untuk mendapatkan jenis jaringan ini untuk belajar karena masalah gradien saturasi / lenyapnya. Namun, menggunakan Normalisasi Batch, orang dapat mengasumsikan bahwa jaringan mampu mempelajari transformasi yang memetakan nilai output aktivasi ke dalam rezim non-saturasi nonlinier tanh.
Catatan Akhir
Mereka bahkan merujuk factoid Yann LeCun yang sama yang Anda sebutkan sebagai motivasi untuk Normalisasi Batch.