Mengapa fungsi sigmoid standar de-facto, , begitu populer di jaringan saraf dan regresi logistik (tidak dalam)?
Mengapa kita tidak menggunakan banyak fungsi turunan lainnya, dengan waktu perhitungan yang lebih cepat atau peluruhan yang lebih lambat (sehingga gradien menghilang lebih sedikit). Beberapa contoh ada di Wikipedia tentang fungsi sigmoid . Salah satu favorit saya dengan pembusukan lambat dan perhitungan cepat adalah .
EDIT
Pertanyaannya berbeda dengan daftar fungsi aktivasi Komprehensif di jaringan saraf dengan pro / kontra karena saya hanya tertarik pada 'mengapa' dan hanya untuk sigmoid.
logistic
neural-networks
least-squares
Mark Horvath
sumber
sumber
Jawaban:
Mengutip diri saya dari jawaban ini untuk pertanyaan yang berbeda:
Ini menjelaskan mengapa sigmoid ini digunakan dalam regresi logistik.
Mengenai jaringan saraf, posting blog ini menjelaskan betapa berbedanya nonlinier termasuk logit / softmax dan probit yang digunakan dalam jaringan saraf dapat diberikan interpretasi statistik dan dengan demikian motivasi. Gagasan yang mendasarinya adalah bahwa jaringan saraf multi-layered dapat dianggap sebagai hierarki model linier umum; menurut ini, fungsi aktivasi adalah fungsi tautan, yang pada gilirannya sesuai dengan asumsi distribusi yang berbeda.
sumber
Salah satu alasan fungsi ini mungkin tampak lebih "alami" daripada yang lain adalah bahwa ia kebetulan merupakan kebalikan dari parameter kanonik distribusi Bernoulli: (Fungsipdalam eksponen disebut parameter kanonik.)
Mungkin justifikasi yang lebih menarik datang dari teori informasi, di mana fungsi sigmoid dapat diturunkan sebagai model entropi maksimum . Secara kasar, fungsi sigmoid mengasumsikan struktur minimal dan mencerminkan keadaan umum ketidaktahuan kita tentang model yang mendasarinya.
sumber
Saya telah bertanya pada diri sendiri pertanyaan ini selama berbulan-bulan. Jawaban pada CrossValidated dan Quora semuanya daftar sifat yang bagus dari fungsi sigmoid logistik, tetapi semuanya sepertinya kita dengan cerdik menebak fungsi ini. Apa yang saya lewatkan adalah pembenaran untuk memilihnya. Saya akhirnya menemukan satu di bagian 6.2.2.2 dari buku "Deep Learning" karya Bengio (2016) . Dengan kata-kata saya sendiri:
Singkatnya, kami ingin logaritma output model sesuai untuk optimasi berbasis gradien dari log-kemungkinan data pelatihan.
Motivasi
Mengapa fungsi sigmoid logistik?
Memotongz dengan P(Y=1|z) =max{0,min{1,z}} menghasilkan gradien nol untuk z luar [0,1] . Kita memerlukan gradien yang kuat setiap kali prediksi model salah, karena kita menyelesaikan regresi logistik dengan gradient descent. Untuk regresi logistik, tidak ada solusi bentuk tertutup.
Fungsi logistik memiliki properti bagus asymptot gradien konstan ketika prediksi model salah, mengingat bahwa kami menggunakan Estimasi Kemungkinan Maksimum agar sesuai dengan model. Ini ditunjukkan di bawah ini:
Untuk manfaat numerik, Estimasi Kemungkinan Maksimum dapat dilakukan dengan meminimalkan log-kemungkinan negatif dari data pelatihan. Jadi, fungsi biaya kami adalah:
KarenaP( Y= 0 | z) = 1 - P( Y= 1 | z) , kita dapat fokus pada kasus Y= 1 . Jadi, pertanyaannya adalah bagaimana memodelkan P( Y= 1 | z) mengingat kita memiliki z= wTx + b .
Persyaratan yang jelas untuk fungsif pemetaan z ke P( Y= 1 | z) adalah:
Kita dapat melihat bahwa ada komponen linier- z . Sekarang, kita dapat melihat dua kasus:
Alternatif
yang terlihat seperti ini:
sumber
Karena pertanyaan awal menyebutkan masalah gradien yang membusuk, saya hanya ingin menambahkan itu, untuk lapisan menengah (di mana Anda tidak perlu menafsirkan aktivasi sebagai probabilitas kelas atau hasil regresi), nonlinier lainnya sering lebih disukai daripada fungsi sigmoidal. Yang paling menonjol adalah fungsi penyearah (seperti dalam ReLUs ), yang linear pada domain positif dan nol di atas negatif. Salah satu kelebihan mereka adalah bahwa mereka kurang tunduk pada masalah gradien yang membusuk, karena turunannya konstan pada domain positif. ReLU telah menjadi populer sampai-sampai sigmoids mungkin tidak dapat disebut standar de-facto lagi.
sumber