Saya membaca makalah Klasifikasi ImageNet dengan Jaringan Neural Konvolusional Dalam dan pada bagian 3 mereka menjelaskan arsitektur Jaringan Neural Konvolusional mereka, mereka menjelaskan bagaimana mereka lebih suka menggunakan:
non-jenuh nonlinier
karena lebih cepat untuk berlatih. Dalam makalah itu mereka tampaknya merujuk pada kejenuhan nonlinier sebagai fungsi yang lebih tradisional yang digunakan dalam CNN, fungsi sigmoid dan hiperbolik tangen (yaitu dan sebagai jenuh).
Mengapa mereka menyebut fungsi-fungsi ini sebagai "jenuh" atau "tidak jenuh"? Dalam arti apa fungsi-fungsi ini "jenuh" atau "tidak jenuh"? Apa arti istilah-istilah itu dalam konteks jaringan saraf convolutional? Apakah mereka digunakan di bidang pembelajaran mesin lainnya (dan statistik)?
sumber
Jawaban:
Intuisi
Fungsi aktivasi jenuh memeras input.
Definisi
Definisi-definisi ini tidak spesifik untuk jaringan saraf convolutional.
Contohnya
Fungsi aktivasi Rectified Linear Unit (ReLU), yang didefinisikan sebagai tidak jenuh karena :f( x ) = m a x ( 0 , x ) limz→ + ∞f( z) = + ∞
Fungsi aktivasi sigmoid, yang didefinisikan sebagai jenuh, karena meremas bilangan real untuk berkisar antara :f( x ) = 11 + e- x [ 0 , 1 ]
Fungsi aktivasi tanh (garis singgung hiperbolik) jenuh karena meremas bilangan real untuk berkisar antara :[ - 1 , 1 ]
(Angka berasal dari CS231n , Lisensi MIT)
sumber
Fungsi aktivasi yang paling umum adalah LOG dan TanH. Fungsi-fungsi ini memiliki rentang yang kompak, yang berarti bahwa mereka memampatkan respons saraf menjadi subset terikat dari bilangan real. LOG memampatkan input ke output antara 0 dan 1, TAN H antara -1 dan 1. Fungsi-fungsi ini menampilkan perilaku pembatasan di batas.
Di perbatasan, gradien output sehubungan dengan input ∂yj / ∂xj sangat kecil. Jadi Gradient kecil maka langkah kecil menuju konvergensi maka waktu yang lebih lama untuk bertemu.
sumber