Saya baca di sini sebagai berikut:
- Output Sigmoid tidak berpusat nol . Ini tidak diinginkan karena neuron dalam lapisan pemrosesan berikutnya dalam Jaringan Saraf Tiruan (lebih lanjut tentang ini segera) akan menerima data yang tidak berpusat nol. Ini memiliki implikasi pada dinamika selama gradient descent, karena jika data yang masuk ke neuron selalu positif (misalnya elementwise dalam )), maka gradien pada bobot akan selama backpropagation menjadi semua positif, atau semua negatif (tergantung pada gradien seluruh ekspresi ). Ini dapat memperkenalkan dinamika zig-zag yang tidak diinginkan dalam pembaruan gradien untuk bobot. Namun, perhatikan bahwa setelah gradien ini ditambahkan di seluruh kumpulan data, pembaruan terakhir untuk bobot dapat memiliki tanda variabel, agak mengurangi masalah ini. Oleh karena itu, ini adalah ketidaknyamanan tetapi memiliki konsekuensi yang kurang parah dibandingkan dengan masalah aktivasi jenuh di atas.
Mengapa memiliki semua (elementwise) menyebabkan gradien semua-positif atau semua-negatif pada ?
neural-networks
deep-learning
backpropagation
Amelio Vazquez-Reina
sumber
sumber
Jawaban:
karenaxsaya> 0 , gradien dL.dwsaya selalu memiliki tanda yang sama dengan dL.df (semuanya positif atau semuanya negatif).
Perbaruiw1 w2
Katakanlah ada dua parameter dan , jika gradien dua dimensi selalu dari tanda yang sama, itu berarti kita hanya bisa bergerak secara kasar ke arah timur laut atau barat daya di ruang parameter.
Jika tujuan kita berada di timur laut, kita hanya bisa bergerak dengan cara zig-zag untuk sampai ke sana, sama seperti parkir paralel di ruang sempit. (maafkan gambar saya)
Oleh karena itu fungsi aktivasi semua positif atau semua negatif (relu, sigmoid) dapat menjadi sulit untuk optimasi berbasis gradien. Untuk mengatasi masalah ini, kita dapat menormalkan data terlebih dahulu menjadi nol-berpusat seperti pada normalisasi batch / layer.
Juga solusi lain yang bisa saya pikirkan adalah menambahkan istilah bias untuk setiap input sehingga layer menjadi Gradien adalah tanda tidak hanya bergantung pada .f= ∑ wsaya( xsaya+ bsaya) . dL.dwsaya= dL.df( xsaya- bsaya) xsaya
sumber