Saat ini saya sedang mempersiapkan ujian pada jaringan saraf. Dalam beberapa protokol dari ujian sebelumnya saya membaca bahwa fungsi aktivasi neuron (dalam multilayer perceptrons) harus monotonik.
Saya mengerti bahwa fungsi aktivasi harus dapat dibedakan, memiliki turunan yang bukan 0 pada kebanyakan poin, dan bersifat non-linear. Saya tidak mengerti mengapa menjadi monoton itu penting / bermanfaat.
Saya tahu fungsi aktivasi berikut dan itu monoton:
- ReLU
- Sigmoid
- Tanh
- Softmax: Saya tidak yakin apakah definisi monotonitas berlaku untuk fungsi dengan
- Softplus
- (Identitas)
Namun, saya masih tidak dapat melihat alasan mengapa misalnya .
Mengapa fungsi aktivasi harus monoton?
(Pertanyaan sisi terkait: apakah ada alasan mengapa fungsi logaritma / eksponensial tidak digunakan sebagai fungsi aktivasi?)
machine-learning
neural-network
Martin Thoma
sumber
sumber
Jawaban:
Kriteria monotonisitas membantu jaringan saraf untuk menyatu lebih mudah menjadi pengklasifikasi yang lebih akurat. Lihat jawaban stackexchange dan artikel wikipedia ini untuk perincian dan alasan lebih lanjut.
Namun, kriteria monotonisitas tidak wajib untuk fungsi aktivasi - Juga dimungkinkan untuk melatih jaring saraf dengan fungsi aktivasi non-monotonik. Semakin sulit untuk mengoptimalkan jaringan saraf. Lihat jawaban Yoshua Bengio .
sumber
Saya akan memberikan alasan yang lebih matematis tentang mengapa fungsi monoton membantu!
Menggunakan http://mathonline.wikidot.com/lebesgue-s-theorem-for-the-differabilityability-of-monotone-fun , dengan asumsi fungsi aktivasi kami menjadi monoton, kita dapat mengatakan bahwa pada garis nyata, fungsi kita akan menjadi terdiferensiasi. Jadi, gradien fungsi aktivasi tidak akan menjadi fungsi yang tidak menentu. Akan lebih mudah menemukan minima yang kita cari. (tidak mahal secara komputasi)
Fungsi eksponensial dan Logaritmik adalah fungsi yang indah tetapi tidak dibatasi (Jadi, kebalikan dari Teorema Lebesgue tidak benar karena Exp dan Log adalah fungsi yang dapat dibedakan yang tidak dibatasi pada garis nyata). Jadi, mereka gagal ketika kita ingin mengklasifikasikan contoh kita pada tahap akhir. Sigmoid dan tanh bekerja sangat baik karena mereka memiliki gradien yang mudah dihitung dan jangkauannya masing-masing (0,1) dan (-1,1).
sumber