tanh vs sigmoid di jaring saraf

16

Saya minta maaf sebelumnya atas fakta bahwa saya masih akan mempercepat ini. Saya mencoba memahami pro dan kontra menggunakan tanh (peta -1 hingga 1) vs sigmoid (peta 0 hingga 1) untuk fungsi aktivasi neuron saya. Dari bacaan saya itu terdengar seperti hal kecil dengan perbedaan kecil. Dalam praktik untuk masalah saya, saya menemukan bahwa sigmoid lebih mudah untuk dilatih dan anehnya, sigmoid tampaknya menemukan solusi umum yang lebih baik. Maksud saya adalah bahwa ketika versi sigmoid dilakukan pelatihan, ia bekerja dengan baik pada set data referensi (tidak terlatih), di mana versi tanh tampaknya bisa mendapatkan jawaban yang benar pada data pelatihan sementara melakukan buruk pada referensi. Ini untuk arsitektur jaringan yang sama.

Satu intuisi yang saya miliki adalah bahwa dengan sigmoid, neuron lebih mudah dimatikan, sehingga tidak memberikan input ke lapisan berikutnya. Tanh memiliki waktu yang lebih sulit di sini karena ia perlu membatalkan inputnya dengan sempurna, jika tidak selalu memberikan nilai ke lapisan berikutnya. Mungkin intuisi ini salah.

Pos lama. Intinya, apa perdagangannya, dan haruskah itu membuat perbedaan besar?

Mastiff
sumber

Jawaban:

23

Dalam buku "Neural Networks: A Comprehensive Foundation" Symon Haykin ada penjelasan berikut yang saya kutip:

Agar waktu pembelajaran dapat diminimalkan, penggunaan input rata-rata yang tidak nol harus dihindari. Sekarang, sejauh vektor sinyal diterapkan pada neuron di lapisan tersembunyi pertama dari perceptron multilayer yang bersangkutan, mudah untuk menghapus rata-rata dari setiap elemen x sebelum penerapannya ke jaringan. Tetapi bagaimana dengan sinyal yang diterapkan pada neuron dalam lapisan tersembunyi dan keluaran yang tersisa dari jaringan? Jawaban untuk pertanyaan ini terletak pada jenis fungsi aktivasi yang digunakan dalam jaringan. Jika fungsi aktivasi tidak simetris, seperti dalam kasus fungsi sigmoid, output dari masing-masing neuron dibatasi hingga interval [ 0 , 1 ] . Pilihan semacam itu memperkenalkan sumber bias sistematisxx[0,1]untuk neuron yang terletak di luar lapisan pertama jaringan. Untuk mengatasi masalah ini, kita perlu menggunakan fungsi aktivasi antisimetrik seperti fungsi tangen hiperbolik. Dengan pilihan terakhir ini, output dari masing-masing neuron diizinkan untuk mengasumsikan nilai positif dan negatif dalam interval , dalam hal ini kemungkinan untuk rata-rata menjadi nol. Jika konektivitas jaringan besar, pembelajaran back-propagation dengan fungsi aktivasi antisimetrik dapat menghasilkan konvergensi yang lebih cepat daripada proses serupa dengan fungsi aktivasi non-simetris, yang juga memiliki bukti empiris (LeCun et al. 1991).[1,1]

Referensi yang dikutip adalah:

  • Y. LeCun, I. Kanter, dan SASolla: "Properti urutan kedua dari permukaan kesalahan: waktu belajar dan generalisasi", Kemajuan dalam Sistem Pemrosesan Informasi Saraf Tiruan, vol. 3, hlm. 918-924, 1991.

Referensi menarik lainnya adalah sebagai berikut:

  • Y. LeCun, L. Bottou, G. Orr dan K. Muller: " BackProp Efisien ", di Orr, G. dan Muller K. (Eds), Jaringan Saraf Tiruan: Trik perdagangan, Springer, 1998
tiagotvv
sumber
Neuron-neuron ReLU tampaknya bekerja cukup baik meskipun memiliki bias. Apakah Anda punya pemikiran tentang itu?
Ark-kun
@ Ark-kun, saya tidak tahu banyak tentang neuron ReLU tapi saya bisa merujuk Anda ke makalah ini di mana penulis menjelaskan keuntungan dari fungsi aktivasi tersebut. X. Glorot, A. Bordes dan Y. Bengio "Jaringan saraf rectifier deep jarang AISTATS 2011. jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.pdf
tiagotvv
1

Dua fungsi aktivasi ini sangat mirip, tetapi diimbangi. Jaringan asli saya tidak memiliki persyaratan bias. Sejak menambahkan bias, semuanya jauh lebih stabil. Berdasarkan pengalaman saya, saya akan mengatakan satu atau yang lain dari ini dapat bekerja lebih baik untuk aplikasi spesifik untuk alasan yang kompleks, mungkin tidak diketahui, tetapi pendekatan yang benar adalah dengan memasukkan istilah bias sehingga ketergantungan pada offset aktivasi dapat dikurangi atau dihilangkan.

Mastiff
sumber
0

tanh

L=1ni(yilog(pi)+(1yi)log(1pi))

yiipii

pitanh

Andre Holzner
sumber
Anda bisa mengukurnya. tanh (X) -1 membagikan turunannya, dan tidak memiliki masalah dengan log negatif
Pablo Arnau González