Saya minta maaf sebelumnya atas fakta bahwa saya masih akan mempercepat ini. Saya mencoba memahami pro dan kontra menggunakan tanh (peta -1 hingga 1) vs sigmoid (peta 0 hingga 1) untuk fungsi aktivasi neuron saya. Dari bacaan saya itu terdengar seperti hal kecil dengan perbedaan kecil. Dalam praktik untuk masalah saya, saya menemukan bahwa sigmoid lebih mudah untuk dilatih dan anehnya, sigmoid tampaknya menemukan solusi umum yang lebih baik. Maksud saya adalah bahwa ketika versi sigmoid dilakukan pelatihan, ia bekerja dengan baik pada set data referensi (tidak terlatih), di mana versi tanh tampaknya bisa mendapatkan jawaban yang benar pada data pelatihan sementara melakukan buruk pada referensi. Ini untuk arsitektur jaringan yang sama.
Satu intuisi yang saya miliki adalah bahwa dengan sigmoid, neuron lebih mudah dimatikan, sehingga tidak memberikan input ke lapisan berikutnya. Tanh memiliki waktu yang lebih sulit di sini karena ia perlu membatalkan inputnya dengan sempurna, jika tidak selalu memberikan nilai ke lapisan berikutnya. Mungkin intuisi ini salah.
Pos lama. Intinya, apa perdagangannya, dan haruskah itu membuat perbedaan besar?
sumber
Dua fungsi aktivasi ini sangat mirip, tetapi diimbangi. Jaringan asli saya tidak memiliki persyaratan bias. Sejak menambahkan bias, semuanya jauh lebih stabil. Berdasarkan pengalaman saya, saya akan mengatakan satu atau yang lain dari ini dapat bekerja lebih baik untuk aplikasi spesifik untuk alasan yang kompleks, mungkin tidak diketahui, tetapi pendekatan yang benar adalah dengan memasukkan istilah bias sehingga ketergantungan pada offset aktivasi dapat dikurangi atau dihilangkan.
sumber
sumber