Mengapa softmax digunakan untuk mewakili distribusi probabilitas?

10

Dalam literatur pembelajaran mesin, untuk mewakili distribusi probabilitas, fungsi softmax sering digunakan. Apakah ada alasan untuk ini? Mengapa fungsi lain tidak digunakan?

SHASHANK GUPTA
sumber

Jawaban:

7

Dari perspektif optimasi, ia memiliki beberapa properti yang bagus dalam hal diferensiabilitas. Untuk banyak masalah pembelajaran mesin, ini sangat cocok untuk klasifikasi 1-of-N.

Dari perspektif pembelajaran yang mendalam: Orang juga dapat berargumen bahwa dalam teori, menggunakan jaringan yang dalam dengan pengklasifikasi softmax di atas dapat mewakili fungsi probabilitas N-kelas di atas ruang fitur karena MLP memiliki properti Universal Approximation .

AI indie
sumber
1
Jadi alasan utama untuk popularitas Softmax adalah sifat diferensiasi yang bagus yang membantu dalam pengaturan pembelajaran Berbasis Gradient. Itu dia kan?
SHASHANK GUPTA
Ya, menurut saya sih. Softmax sederhana dengan turunan yang bagus dan menarik untuk pembelajaran berbasis gradien. Setuju dengan semua yang Anda katakan.
AI Indie
Anda dapat menganggap softmax sebagai probabilitas massa / fungsi kepadatan dari fungsi yang akan Anda optimalkan. Menurut pendapat saya, softmax hanyalah cara mudah untuk memodelkan fungsi massa / kepadatan probabilitas.
Charles Chow
3

Softmax juga merupakan generalisasi dari fungsi sigmoid logistik dan oleh karena itu ia membawa sifat-sifat sigmoid seperti kemudahan diferensiasi dan berada dalam kisaran 0-1. Output dari fungsi sigmoid logistik juga antara 0 dan 1 dan karenanya secara alami merupakan pilihan yang cocok untuk mewakili probabilitas. Turunannya juga dinilai dalam hal outputnya sendiri. Namun, jika fungsi Anda memiliki keluaran vektor, Anda perlu menggunakan fungsi Softmax untuk mendapatkan distribusi probabilitas di atas vektor keluaran. Ada beberapa keuntungan lain dari menggunakan Softmax yang telah disebutkan oleh Indie AI, meskipun itu tidak selalu berhubungan dengan teori Universal Approxim karena Softmax bukan fungsi yang hanya digunakan untuk Neural Networks.

Referensi

Amir
sumber