Apakah mungkin untuk memiliki bobot negatif (setelah zaman yang cukup) untuk jaringan saraf convolutional yang mendalam ketika kita menggunakan ReLU untuk semua lapisan aktivasi?
13
Apakah mungkin untuk memiliki bobot negatif (setelah zaman yang cukup) untuk jaringan saraf convolutional yang mendalam ketika kita menggunakan ReLU untuk semua lapisan aktivasi?
Jawaban:
Rectified Linear Units (ReLUs) hanya membuat output neuron menjadi non-negatif. Namun, parameter jaringan dapat, dan akan, menjadi positif atau negatif tergantung pada data pelatihan.
Berikut adalah dua alasan yang dapat saya pikirkan saat ini yang membenarkan (secara intuitif) mengapa beberapa parameter menjadi negatif:
pengaturan parameter (alias pembusukan berat); variasi dalam nilai parameter memungkinkan prediksi, dan jika parameter dipusatkan di sekitar nol (yaitu rata-rata mendekati nol), maka norma (yang merupakan pengatur standar) rendah.ℓ2
meskipun gradien dari output suatu lapisan sehubungan dengan parameter lapisan tergantung pada input ke lapisan (yang selalu positif dengan asumsi bahwa lapisan sebelumnya melewati keluarannya melalui ReLU), namun, gradien kesalahan (yang datang dari lapisan yang lebih dekat ke lapisan keluaran akhir) mungkin positif atau negatif, memungkinkan SGD untuk membuat beberapa nilai parameter negatif setelah mengambil langkah gradien berikutnya. Lebih khusus lagi, misalkan , , dan menunjukkan input, output, dan parameter layer dalam jaringan saraf. Juga, biarkan menjadi kesalahan akhir jaringan yang disebabkan oleh beberapa sampel pelatihan. Gradien kesalahan sehubungan dengan dihitung sebagaiO w E w ∂ EI O w E w Ok=O,∀k∂E∂w=(∑Kk=1∂E∂Ok)⋅∂Ok∂w ; perhatikan bahwa (lihat gambar di bawah):Ok=O,∀k
sumber
Bayangkan Anda memiliki bobot optimal yang semuanya non-negatif.
Sekarang invert beberapa variabel input . Jaringan optimal untuk pengaturan ini adalah dengan bobot tepi terbalik, sehingga bobot baru tidak-positif. { x ′ i , y }x′i=−xi {x′i,y}
sumber
Kecuali jika Anda menggunakan fungsi aktivasi lain misalnya Leaky ReLU. Berat lapisan yang diperbaiki setelah yang pertama adalah non-negatif terlepas dari berapa banyak zaman dalam pelatihan.
sumber