Mengapa menggunakan softmax sebagai lawan dari normalisasi standar? Di area komentar dari jawaban teratas dari pertanyaan ini, @Kilian Batzner mengajukan 2 pertanyaan yang juga membingungkan saya. Sepertinya tidak ada yang memberi penjelasan kecuali manfaat numerik.
Saya mendapatkan alasan untuk menggunakan Cross-Entropy Loss, tetapi bagaimana hubungannya dengan softmax? Anda mengatakan "fungsi softmax dapat dilihat sebagai upaya untuk meminimalkan entropi silang antara prediksi dan kebenaran". Misalkan, saya akan menggunakan normalisasi standar / linear, tetapi masih menggunakan Cross-Entropy Loss. Maka saya juga akan mencoba untuk meminimalkan Cross-Entropy. Jadi bagaimana softmax terkait dengan Cross-Entropy kecuali untuk manfaat numerik?
Adapun pandangan probabilistik: apa motivasi untuk melihat probabilitas log? Alasannya agak seperti "Kami menggunakan e ^ x dalam softmax, karena kami menafsirkan x sebagai log-probabilties". Dengan alasan yang sama dengan yang dapat kami katakan, kami menggunakan e ^ e ^ e ^ x dalam softmax, karena kami menafsirkan x sebagai log-log-log-probabilitas (Membesar-besarkan di sini, tentu saja). Saya mendapatkan manfaat numerik dari softmax, tetapi apa motivasi teoretis untuk menggunakannya?
Jawaban:
Ini lebih dari sekedar angka. Pengingat cepat dari softmax:
Di mana adalah vektor input dengan panjang sama dengan jumlah kelas . Fungsi softmax memiliki 3 sifat yang sangat bagus: 1. menormalkan data Anda (menghasilkan distribusi probabilitas yang tepat), 2. dapat dibedakan, dan 3. menggunakan exp yang Anda sebutkan. Beberapa poin penting:K.x K
Fungsi kerugian tidak secara langsung terkait dengan softmax. Anda dapat menggunakan normalisasi standar dan masih menggunakan lintas-entropi.
Fungsi "hardmax" (yaitu argmax) tidak dapat dibedakan. Softmax memberikan setidaknya probabilitas minimal untuk semua elemen dalam vektor output, dan dengan demikian dapat dibedakan dengan baik, maka istilah "lunak" dalam softmax.
Sekarang saya menjawab pertanyaan Anda. The di Softmax adalah fungsi eksponensial alami. Sebelum kita menormalkan, kita mentransformasikan seperti pada grafik :x e xe x ex
Jika adalah 0 maka , jika adalah 1, maka , dan jika adalah 2, sekarang ! Langkah besar! Inilah yang disebut transformasi non-linear dari skor log kami yang tidak dinormalisasi. Sifat yang menarik dari fungsi eksponensial yang dikombinasikan dengan normalisasi dalam softmax adalah bahwa skor tinggi dalam menjadi lebih mungkin daripada skor rendah.y = 1 x y = 2.7 x y = 7 xx y=1 x y=2.7 x y=7 x
Contoh . Katakan , dan skor log Anda adalah vektor . Output fungsi argmax sederhana:x [ 2 , 4 , 2 , 1 ]K=4 x [2,4,2,1]
Argmax adalah tujuannya, tetapi tidak dapat dibedakan dan kami tidak dapat melatih model kami dengannya :( Normalisasi sederhana, yang dapat dibedakan, menghasilkan probabilitas berikut:
Itu benar-benar jauh dari argmax! :( Sedangkan output softmax:
Itu jauh lebih dekat dengan argmax! Karena kami menggunakan eksponensial alami, kami sangat meningkatkan probabilitas skor terbesar dan mengurangi probabilitas skor lebih rendah bila dibandingkan dengan normalisasi standar. Oleh karena itu "maks" dalam softmax.
sumber
e
, bagaimana dengan menggunakan konstanta katakan 3, atau 4? Apakah hasilnya akan sama?e
memiliki turunan yang lebih baik;)e
yang membuatnya dapat ditafsirkan sebagai suatu probabilitas, itu adalah fakta bahwa setiap elemen dari output softmax dibatasi dalam [0,1] dan seluruh jumlah menjadi 1.Selain penjelasan vega,
mari kita tentukan softmax generik: mana adalah konstanta> = 1P(y=j|x)=ψxj∑Kk=1ψxk ψ
jika , maka Anda cukup jauh dari argmax seperti yang disebutkan @vega.ψ=1
Sekarang mari kita asumsikan , sekarang Anda cukup dekat dengan argmax tetapi Anda juga memiliki angka yang sangat kecil untuk nilai negatif dan angka besar untuk positif. Nomor ini overflows yang titik mengambang batas aritmatika dengan mudah (untuk batas contoh maksimum float64 numpy adalah ). Selain itu, bahkan jika pilihannya adalah yang jauh lebih kecil dari , kerangka kerja harus menerapkan versi softmax yang lebih stabil (mengalikan pembilang dan penyebut dengan konstanta ) karena hasilnya menjadi kecil untuk dapat mengekspresikan dengan presisi seperti itu.ψ=100 10 308 ψ = e 100 C10308 ψ=e 100 C
Jadi, Anda ingin memilih konstanta yang cukup besar untuk memperkirakan argmax dengan baik, dan juga cukup kecil untuk mengekspresikan angka besar dan kecil ini dalam perhitungan.
Dan tentu saja, juga memiliki turunan yang cukup bagus.e
sumber
Pertanyaan ini sangat menarik. Saya tidak tahu alasan pastinya, tetapi saya pikir alasan berikut dapat digunakan untuk menjelaskan penggunaan fungsi eksponensial. Posting ini terinspirasi oleh mekanika statistik dan prinsip entropi maksimum.
Saya akan menjelaskan ini dengan menggunakan contoh dengan gambar , yang merupakan gambar dari kelas , gambar dari kelas , ..., dan gambar dari kelas . Kemudian kami mengasumsikan bahwa jaringan saraf kami dapat menerapkan transformasi nonlinier pada gambar kami, sehingga kami dapat menetapkan 'level energi' untuk semua kelas. Kami berasumsi bahwa energi ini berada pada skala nonlinear yang memungkinkan kami untuk memisahkan gambar secara linear.N n1 C1 n2 C2 nK CK Ek
Energi rata-rata terkait dengan energi lain oleh hubungan berikutE¯ Ek NE¯=∑k=1KnkEk.(∗)
Pada saat yang sama, kita melihat bahwa jumlah total gambar dapat dihitung sebagai jumlah berikut
Gagasan utama dari prinsip entropi maksimum adalah bahwa jumlah gambar dalam kelas yang sesuai didistribusikan sedemikian rupa sehingga jumlah kombinasi yang mungkin untuk distribusi energi yang diberikan dimaksimalkan. Sederhananya sistem tidak akan terlalu likeli masuk ke keadaan di mana kita hanya memiliki kelas itu juga tidak akan masuk ke keadaan di mana kita memiliki jumlah gambar yang sama di setiap kelas. Tetapi mengapa demikian? Jika semua gambar berada dalam satu kelas sistem akan memiliki entropi yang sangat rendah. Kasus kedua juga akan menjadi situasi yang sangat tidak wajar. Sangat mungkin bahwa kita akan memiliki lebih banyak gambar dengan energi sedang dan lebih sedikit gambar dengan energi sangat tinggi dan sangat rendah.n1
Entropi meningkat dengan jumlah kombinasi di mana kita dapat membagi gambar menjadi kelas gambar , , ..., dengan energi yang sesuai. Jumlah kombinasi ini diberikan oleh koefisien multinomialN n1 n2 nK
Kami akan mencoba untuk memaksimalkan angka ini dengan asumsi bahwa kami memiliki banyak gambar tanpa batas . Namun maksimasinya juga memiliki kendala kesetaraan dan . Jenis optimasi ini disebut optimasi terbatas. Kita dapat memecahkan masalah ini secara analitis dengan menggunakan metode pengganda Lagrange. Kami memperkenalkan pengganda Lagrange dan untuk kendala kesetaraan dan kami memperkenalkan Lagrange Funktion .N→∞ (∗) (∗∗) β α L(n1,n2,…,nk;α,β)
Seperti yang kita asumsikan kita juga dapat mengasumsikan dan menggunakan perkiraan Stirling untuk faktorialN→∞ nk→∞
Perhatikan bahwa perkiraan ini (dua istilah pertama) hanya asimtotik, itu tidak berarti bahwa perkiraan ini akan konvergen keuntuk .lnn! n→∞
Turunan parsial dari fungsi Lagrange dengan hormat akan menghasilkannk~
Jika kita menetapkan turunan parsial ini ke nol, kita dapat menemukannya
Jika kita mengembalikan ini ke kita bisa mendapatkan(∗∗)
Jika kita mengembalikan ini ke kita mendapatkan sesuatu yang seharusnya mengingatkan kita pada fungsi softmax(∗∗∗)
Jika kita mendefinisikan sebagai probabilitas kelas oleh kita akan mendapatkan sesuatu yang benar-benar mirip dengan fungsi softmaxnk~/N Ck~ pk~
Oleh karena itu, ini menunjukkan kepada kita bahwa fungsi softmax adalah fungsi yang memaksimalkan entropi dalam distribusi gambar. Dari titik ini, masuk akal untuk menggunakan ini sebagai distribusi gambar. Jika kita mengatur kita secara tepat mendapatkan definisi fungsi softmax untuk output .βEk~=wTkx kth
sumber