Sering disebutkan bahwa unit linear yang diperbaiki (ReLU) telah menggantikan unit softplus karena mereka linier dan lebih cepat untuk dikomputasi.
Apakah softplus itu masih memiliki keuntungan menginduksi sparsity atau apakah itu terbatas pada ReLU?
Alasan saya bertanya adalah saya bertanya-tanya tentang konsekuensi negatif dari kemiringan nol ReLU. Bukankah properti ini "menjebak" unit di nol di mana mungkin bermanfaat untuk memberi mereka kemungkinan pengaktifan kembali?
machine-learning
neural-networks
brockl33
sumber
sumber
Jawaban:
Saya menemukan jawaban untuk pertanyaan Anda di Bagian 6.3.3 dari buku Pembelajaran Mendalam . (Goodfellow et. Al, 2016):
Sebagai referensi untuk mendukung klaim ini mereka mengutip kertas Deep Sparse Rectifier Neural Networks (Glorot et. Al, 2011).
sumber
ReLU memang dapat dimatikan secara permanen, khususnya di bawah tingkat pembelajaran yang tinggi. Ini adalah motivasi di balik ReLU yang bocor, dan aktivasi ELU, yang keduanya memiliki gradien nol di hampir semua tempat.
Leaky ReLU adalah fungsi linear yang sama, seperti halnya untuk ReLU, sangat cepat untuk dihitung. ELU memiliki keunggulan dibandingkan softmax dan ReLU bahwa itu berarti output lebih dekat ke nol, yang meningkatkan pembelajaran.
sumber