Menurut definisi, Relu adalah max(0,f(x))
. Kemudian gradien yang didefinisikan sebagai:
1 if x > 0 and 0 if x < 0
.
Bukankah ini berarti gradien selalu 0 (hilang) ketika x <0? Lalu mengapa kita mengatakan Relu tidak menderita masalah gradien menghilang?
sumber
Menghilang berarti bergerak menuju 0 tetapi tidak akan pernah benar-benar menjadi 0. Memiliki gradien 0 membuat perhitungan yang sangat mudah, memiliki gradien mendekati 0 berarti ada perubahan, hanya yang sangat kecil yang berarti pembelajaran lambat dan masalah numerik. 1 dan 0 adalah dua angka termudah untuk dihitung dalam masalah optimasi semacam ini.
sumber