Ada perbedaan antara probabilitas dan probabilitas log. Jika probabilitas suatu peristiwa adalah 0,36787944117, yang kebetulan terjadi1/e, maka probabilitas log adalah -1.
Oleh karena itu, jika Anda diberi banyak kemungkinan log yang tidak dinormalisasi, dan Anda ingin memulihkan probabilitas asli, pertama-tama Anda mengambil eksponen dari semua angka Anda, yang memberi Anda probabilitas yang tidak dinormalisasi. Selanjutnya, Anda menormalkan mereka seperti biasa. Secara matematis, ini
pj=ezj∑iezi
dimana pj adalah probabilitas dari jkelas dan zi adalah input ke pengklasifikasi softmax.
Pertanyaan yang jelas adalah mengapa repot melakukan eksponen. Kenapa tidak digunakan
pj=zj∑izi
sebagai gantinya?
Salah satu alasan untuk ini adalah karena softmax bermain bagus dengan kehilangan lintas-entropi, yaitu -Eq[ logp ]dimana qadalah distribusi yang sebenarnya (label). Secara intuitif, log dibatalkan dengan eksponen, yang sangat membantu kita.
Ternyata jika Anda mengambil gradien dari kehilangan lintas-entropi sehubungan dengan input ke classifier z⃗ , Anda mendapatkan
hal⃗ -1j
ketika label kebenaran dasar ada di kelas j dan 1jadalah vektor satu-panas yang sesuai. Ini adalah ungkapan yang sangat bagus dan mengarah pada interpretasi dan optimisasi yang mudah.
Di sisi lain, jika Anda mencoba menggunakan probabilitas yang tidak dinormalisasi bukannya probabilitas log yang tidak dinormalkan, Anda berakhir dengan gradien yang
1∑sayazsaya-1⃗ Tj1z
Ungkapan ini jauh kurang baik dalam hal interpretabilitas dan Anda juga dapat melihat masalah numerik potensial ketika z dekat dengan 0.
Alasan lain untuk menggunakan probabilitas log dapat dilihat dari regresi logistik, yang hanya merupakan kasus khusus dari klasifikasi softmax. Bentuk fungsi sigmoid berfungsi dengan baik karena, secara intuitif, saat Anda bergerak melintasi ruang fitur, kemungkinan kelas tidak bervariasi secara linear dengan input. Tekuk tajam dalam fungsi sigmoid, yang menekankan batas tajam antara dua kelas, sebenarnya adalah hasil dari istilah eksponensial yang kita terapkan pada input softmax.