Latar Belakang: Ketika menyesuaikan jaringan saraf dengan aktivasi relu, saya menemukan bahwa kadang-kadang prediksi menjadi hampir konstan. Saya percaya bahwa ini adalah karena neuron relu mati selama pelatihan seperti yang dinyatakan di sini. ( Apa masalah "ReLU sekarat" dalam jaringan saraf? )
Pertanyaan: Apa yang ingin saya lakukan adalah mengimplementasikan pemeriksaan dalam kode itu sendiri untuk memeriksa apakah neuron sudah mati. Setelah itu, kode dapat mereparasi jaringan jika diperlukan.
Dengan demikian, apa yang dimaksud dengan citeria yang baik untuk memeriksa neuron yang mati? Saat ini saya sedang berpikir untuk memeriksa varian rendah dalam prediksi sebagai citeria.
Jika itu membantu, saya menggunakan keras.
Jawaban:
ReLU yang mati cukup banyak hanya berarti bahwa nilai argumennya negatif sehingga gradien tetap pada 0; tidak peduli bagaimana Anda melatihnya sejak saat itu. Anda bisa melihat gradien selama pelatihan untuk melihat apakah ReLU mati atau tidak.
Dalam praktiknya Anda mungkin hanya ingin menggunakan ReLU yang bocor, yaitu alih-alih f (x) = maks (0, x) yang Anda tetapkan f (x) = x jika x> 0 dan f (x) = 0,01x jika x <= 0 Dengan cara ini Anda selalu membiarkan gradien kecil dan nol dan unit tidak akan terjebak sepenuhnya dalam pelatihan.
sumber
Dead neuron adalah neuron yang tidak diperbarui selama pelatihan, yaitu. 0 gradien.
Keras memungkinkan ekstraksi gradien secara langsung untuk baris data yang diberikan. (Contoh bagus lainnya)
Atau Anda dapat mengekstraksi bobot neuron dan menghitung sendiri gradien
(mis. Untuk relu, argumen negatif untuk relu -> 0 gradien.)
Sayangnya, gradien adalah titik data spesifik. Hanya jika gradiennya adalah 0 untuk setiap baris data pelatihan, Anda dapat yakin bahwa neuron tidak akan memperbarui untuk semua minibatch selama masa pelatihan.
Relak yang bocor dapat menjadi strategi yang membantu karena tidak ada nilai untuk relu bocor di mana gradien sama dengan 0.
sumber