Dalam softmax classifier, mengapa menggunakan fungsi exp untuk melakukan normalisasi?

Mengapa menggunakan softmax sebagai lawan dari normalisasi standar? Di area komentar dari jawaban teratas dari pertanyaan ini, @Kilian Batzner mengajukan 2 pertanyaan yang juga membingungkan saya. Sepertinya tidak ada yang memberi penjelasan kecuali manfaat numerik.

Saya mendapatkan alasan untuk menggunakan Cross-Entropy Loss, tetapi bagaimana hubungannya dengan softmax? Anda mengatakan "fungsi softmax dapat dilihat sebagai upaya untuk meminimalkan entropi silang antara prediksi dan kebenaran". Misalkan, saya akan menggunakan normalisasi standar / linear, tetapi masih menggunakan Cross-Entropy Loss. Maka saya juga akan mencoba untuk meminimalkan Cross-Entropy. Jadi bagaimana softmax terkait dengan Cross-Entropy kecuali untuk manfaat numerik?

Adapun pandangan probabilistik: apa motivasi untuk melihat probabilitas log? Alasannya agak seperti "Kami menggunakan e ^ x dalam softmax, karena kami menafsirkan x sebagai log-probabilties". Dengan alasan yang sama dengan yang dapat kami katakan, kami menggunakan e ^ e ^ e ^ x dalam softmax, karena kami menafsirkan x sebagai log-log-log-probabilitas (Membesar-besarkan di sini, tentu saja). Saya mendapatkan manfaat numerik dari softmax, tetapi apa motivasi teoretis untuk menggunakannya?

machine-learning deep-learning Hans
sumber

Dapat dibedakan, mengarah ke hasil non-negatif (seperti yang diperlukan untuk probabilitas sehingga cross-entropy dapat dihitung), dan berperilaku seperti fungsi maks, yang sesuai dalam pengaturan klasifikasi. Selamat datang di situs ini!

Emre

@ Terima kasih! Tapi apa artinya "berperilaku seperti fungsi maks"? Selain itu, jika saya memiliki fungsi lain yang juga dapat dibedakan, monoton meningkat dan mengarah ke hasil yang tidak negatif, dapatkah saya menggunakannya untuk menggantikan fungsi exp dalam rumus?

Hans

Ketika Anda menormalkan menggunakan

max

$\max$ , argumen terbesar akan dipetakan ke 1 sementara sisanya dipetakan ke nol, karena pertumbuhan fungsi eksponensial.

Emre

Jawaban:

Ini lebih dari sekedar angka. Pengingat cepat dari softmax:

P (y = j | x) = \frac{e^{x_{j}}}{\sum_{k = 1}^{K} e^{x_{k}}}

$P(y=j | x) = \frac{e^{x_j}}{\sum_{k=1}^K e^{x_k}}$

Di mana adalah vektor input dengan panjang sama dengan jumlah kelas . Fungsi softmax memiliki 3 sifat yang sangat bagus: 1. menormalkan data Anda (menghasilkan distribusi probabilitas yang tepat), 2. dapat dibedakan, dan 3. menggunakan exp yang Anda sebutkan. Beberapa poin penting: $x$ $K$

Fungsi kerugian tidak secara langsung terkait dengan softmax. Anda dapat menggunakan normalisasi standar dan masih menggunakan lintas-entropi.
Fungsi "hardmax" (yaitu argmax) tidak dapat dibedakan. Softmax memberikan setidaknya probabilitas minimal untuk semua elemen dalam vektor output, dan dengan demikian dapat dibedakan dengan baik, maka istilah "lunak" dalam softmax.
Sekarang saya menjawab pertanyaan Anda. The di Softmax adalah fungsi eksponensial alami. Sebelum kita menormalkan, kita mentransformasikan seperti pada grafik : $e$ $x$ $e^x$

Jika adalah 0 maka , jika adalah 1, maka , dan jika adalah 2, sekarang ! Langkah besar! Inilah yang disebut transformasi non-linear dari skor log kami yang tidak dinormalisasi. Sifat yang menarik dari fungsi eksponensial yang dikombinasikan dengan normalisasi dalam softmax adalah bahwa skor tinggi dalam menjadi lebih mungkin daripada skor rendah. $x$ $y=1$ $x$ $y=2.7$ $x$ $y=7$ $x$

Contoh . Katakan , dan skor log Anda adalah vektor . Output fungsi argmax sederhana: $K=4$ $x$ $[2, 4, 2, 1]$

[0, 1, 0, 0]

$[0, 1, 0, 0]$

Argmax adalah tujuannya, tetapi tidak dapat dibedakan dan kami tidak dapat melatih model kami dengannya :( Normalisasi sederhana, yang dapat dibedakan, menghasilkan probabilitas berikut:

[0.2222, 0.4444, 0.2222, 0.1111]

$[0.2222, 0.4444, 0.2222, 0.1111]$

Itu benar-benar jauh dari argmax! :( Sedangkan output softmax:

[0.1025, 0.7573, 0.1025, 0.0377]

$[0.1025, 0.7573, 0.1025, 0.0377]$

Itu jauh lebih dekat dengan argmax! Karena kami menggunakan eksponensial alami, kami sangat meningkatkan probabilitas skor terbesar dan mengurangi probabilitas skor lebih rendah bila dibandingkan dengan normalisasi standar. Oleh karena itu "maks" dalam softmax.

vega
sumber

Info bagus Namun, alih-alih menggunakan e, bagaimana dengan menggunakan konstanta katakan 3, atau 4? Apakah hasilnya akan sama?

Cheok Yan Cheng

@ ChokYanCheng, ya. Tetapi ememiliki turunan yang lebih baik;)

vega

Saya telah melihat bahwa hasil softmax biasanya digunakan sebagai probabilitas milik masing-masing kelas. Jika pilihan 'e' bukan konstanta lainnya arbitrer, tidak masuk akal untuk melihatnya dalam hal probabilitas, bukan?

javierdvalle

@vega Maaf, tapi saya masih tidak melihat bagaimana itu menjawab pertanyaan: mengapa tidak menggunakan e ^ e ^ e ^ e ^ e ^ x karena alasan yang sama? Tolong jelaskan

Gulzar

@jvalle bukan eyang membuatnya dapat ditafsirkan sebagai suatu probabilitas, itu adalah fakta bahwa setiap elemen dari output softmax dibatasi dalam [0,1] dan seluruh jumlah menjadi 1.

vega

Selain penjelasan vega,

mari kita tentukan softmax generik: mana adalah konstanta> = 1

P (y = j | x) = \frac{ψ^{x_{j}}}{\sum_{k = 1}^{K} ψ^{x_{k}}}

$P(y=j | x) = \frac{\psi^{x_j}}{\sum_{k=1}^K \psi^{x_k}}$

ψ

$\psi$

jika , maka Anda cukup jauh dari argmax seperti yang disebutkan @vega. $\psi=1$

Sekarang mari kita asumsikan , sekarang Anda cukup dekat dengan argmax tetapi Anda juga memiliki angka yang sangat kecil untuk nilai negatif dan angka besar untuk positif. Nomor ini overflows yang titik mengambang batas aritmatika dengan mudah (untuk batas contoh maksimum float64 numpy adalah ). Selain itu, bahkan jika pilihannya adalah yang jauh lebih kecil dari , kerangka kerja harus menerapkan versi softmax yang lebih stabil (mengalikan pembilang dan penyebut dengan konstanta ) karena hasilnya menjadi kecil untuk dapat mengekspresikan dengan presisi seperti itu. $\psi=100$ $10^{308}$ $\psi=e$ $100$ $C$

Jadi, Anda ingin memilih konstanta yang cukup besar untuk memperkirakan argmax dengan baik, dan juga cukup kecil untuk mengekspresikan angka besar dan kecil ini dalam perhitungan.

Dan tentu saja, juga memiliki turunan yang cukup bagus. $e$

komunistbakkal
sumber

Pertanyaan ini sangat menarik. Saya tidak tahu alasan pastinya, tetapi saya pikir alasan berikut dapat digunakan untuk menjelaskan penggunaan fungsi eksponensial. Posting ini terinspirasi oleh mekanika statistik dan prinsip entropi maksimum.

Saya akan menjelaskan ini dengan menggunakan contoh dengan gambar , yang merupakan gambar dari kelas , gambar dari kelas , ..., dan gambar dari kelas . Kemudian kami mengasumsikan bahwa jaringan saraf kami dapat menerapkan transformasi nonlinier pada gambar kami, sehingga kami dapat menetapkan 'level energi' untuk semua kelas. Kami berasumsi bahwa energi ini berada pada skala nonlinear yang memungkinkan kami untuk memisahkan gambar secara linear. $N$ $n_1$ $\mathcal{C}_1$ $n_2$ $\mathcal{C}_2$ $n_K$ $\mathcal{C}_K$ $E_k$

Energi rata-rata terkait dengan energi lain oleh hubungan berikut $\bar{E}$ $E_k$

N \bar{E} = \sum_{k = 1}^{K} n_{k} E_{k} . (*)

$\begin{equation} N\bar{E} = \sum_{k=1}^{K} n_k E_k.\qquad (*) \label{eq:mean_energy} \end{equation}$

Pada saat yang sama, kita melihat bahwa jumlah total gambar dapat dihitung sebagai jumlah berikut

N = \sum_{k = 1}^{K} n_{k} . (* *)

$\begin{equation} N = \sum_{k=1}^{K}n_k.\qquad (**) \label{eq:conservation_of_particles} \end{equation}$

Gagasan utama dari prinsip entropi maksimum adalah bahwa jumlah gambar dalam kelas yang sesuai didistribusikan sedemikian rupa sehingga jumlah kombinasi yang mungkin untuk distribusi energi yang diberikan dimaksimalkan. Sederhananya sistem tidak akan terlalu likeli masuk ke keadaan di mana kita hanya memiliki kelas itu juga tidak akan masuk ke keadaan di mana kita memiliki jumlah gambar yang sama di setiap kelas. Tetapi mengapa demikian? Jika semua gambar berada dalam satu kelas sistem akan memiliki entropi yang sangat rendah. Kasus kedua juga akan menjadi situasi yang sangat tidak wajar. Sangat mungkin bahwa kita akan memiliki lebih banyak gambar dengan energi sedang dan lebih sedikit gambar dengan energi sangat tinggi dan sangat rendah. $n_1$

Entropi meningkat dengan jumlah kombinasi di mana kita dapat membagi gambar menjadi kelas gambar , , ..., dengan energi yang sesuai. Jumlah kombinasi ini diberikan oleh koefisien multinomial $N$ $n_1$ $n_2$ $n_K$

(\begin{matrix} N! \\ n_{1}!, n_{2}!, \dots, n_{K}! \end{matrix}) = \frac{N!}{\prod_{k = 1}^{K} n_{k}!} .

$\begin{equation} \begin{pmatrix} N!\\ n_1!,n_2!,\ldots,n_K!\\ \end{pmatrix}=\dfrac{N!}{\prod_{k=1}^K n_k!}. \end{equation}$

Kami akan mencoba untuk memaksimalkan angka ini dengan asumsi bahwa kami memiliki banyak gambar tanpa batas . Namun maksimasinya juga memiliki kendala kesetaraan dan . Jenis optimasi ini disebut optimasi terbatas. Kita dapat memecahkan masalah ini secara analitis dengan menggunakan metode pengganda Lagrange. Kami memperkenalkan pengganda Lagrange dan untuk kendala kesetaraan dan kami memperkenalkan Lagrange Funktion . $N\to \infty$ $(*)$ $(**)$ $\beta$ $\alpha$ $\mathcal{L}\left(n_1,n_2,\ldots,n_k;\alpha, \beta \right)$

L (n_{1}, n_{2}, \dots, n_{k}; α, β) = \frac{N!}{\prod_{k = 1}^{K} n_{k}!} + β [\sum_{k = 1}^{K} n_{k} E_{k} - N \bar{E}] + α [N - \sum_{k = 1}^{K} n_{k}]

$\begin{equation} \mathcal{L}\left(n_1,n_2,\ldots,n_k;\alpha, \beta \right) = \dfrac{N!}{\prod_{k=1}^{K}n_k!}+\beta\left[\sum_{k=1}^Kn_k E_k - N\bar{E}\right]+\alpha\left[N-\sum_{k=1}^{K} n_k\right] \end{equation}$

Seperti yang kita asumsikan kita juga dapat mengasumsikan dan menggunakan perkiraan Stirling untuk faktorial $N\to \infty$ $n_k \to \infty$

\ln n! = n \ln n - n + O (\ln n) .

$\begin{equation} \ln n! = n\ln n - n + \mathcal{O}(\ln n). \end{equation}$

Perhatikan bahwa perkiraan ini (dua istilah pertama) hanya asimtotik, itu tidak berarti bahwa perkiraan ini akan konvergen keuntuk . $\ln n!$ $n\to \infty$

Turunan parsial dari fungsi Lagrange dengan hormat akan menghasilkan $n_\tilde{k}$

\frac{\partial L}{\partial n_{\tilde{k}}} = - \ln n_{\tilde{k}} - 1 - α + β E_{\tilde{k}} .

$\dfrac{\partial \mathcal{L}}{\partial n_\tilde{k}}=-\ln n_\tilde{k}-1-\alpha+\beta E_\tilde{k}.$

Jika kita menetapkan turunan parsial ini ke nol, kita dapat menemukannya

n_{\tilde{k}} = \frac{\exp (β E_{\tilde{k}})}{\exp (1 + α)} . (* * *)

$n_\tilde{k}=\dfrac{\exp(\beta E_\tilde{k})}{\exp(1+\alpha)}. \qquad (***)$

Jika kita mengembalikan ini ke kita bisa mendapatkan $(**)$

\exp (1 + α) = \frac{1}{N} \sum_{k = 1}^{K} \exp (β E_{k}) .

$\exp(1+\alpha)=\dfrac{1}{N}\sum_{k=1}^K\exp(\beta E_k).$

Jika kita mengembalikan ini ke kita mendapatkan sesuatu yang seharusnya mengingatkan kita pada fungsi softmax $(***)$

n_{\tilde{k}} = \frac{\exp (β E_{\tilde{k}})}{\frac{1}{N} \sum_{k = 1}^{K} \exp (β E_{k})} .

$n_\tilde{k}=\dfrac{\exp(\beta E_\tilde{k})}{\dfrac{1}{N}\sum_{k=1}^K\exp(\beta E_k)}.$

Jika kita mendefinisikan sebagai probabilitas kelas oleh kita akan mendapatkan sesuatu yang benar-benar mirip dengan fungsi softmax $n_\tilde{k}/N$ $\mathcal{C}_\tilde{k}$ $p_\tilde{k}$

p_{\tilde{k}} = \frac{\exp (β E_{\tilde{k}})}{\sum_{k = 1}^{K} \exp (β E_{k})} .

$p_\tilde{k}=\dfrac{\exp(\beta E_\tilde{k})}{\sum_{k=1}^K\exp(\beta E_k)}.$

Oleh karena itu, ini menunjukkan kepada kita bahwa fungsi softmax adalah fungsi yang memaksimalkan entropi dalam distribusi gambar. Dari titik ini, masuk akal untuk menggunakan ini sebagai distribusi gambar. Jika kita mengatur kita secara tepat mendapatkan definisi fungsi softmax untuk output . $\beta E_\tilde{k}=\boldsymbol{w}^T_k\boldsymbol{x}$ $k^{\text{th}}$

MachineLearner
sumber