Fungsi Softmax vs Sigmoid di Logistic classifier?

63

Apa yang menentukan pilihan fungsi (Softmax vs Sigmoid) dalam pengklasifikasi Logistik?

Misalkan ada 4 kelas output. Masing-masing fungsi di atas memberikan probabilitas masing-masing kelas menjadi hasil yang benar. Jadi mana yang harus diambil untuk classifier?

machine-learning logistic classification softmax mach
sumber

16

Fungsi softmax tidak lain adalah generalisasi dari sigmoid, jadi tidak sepenuhnya jelas apa yang Anda maksud dengan "softmax vs sigmoid."

dsaxton

2

Ini adalah kasus dengan sigmoid. Ketika kita menggunakan sigmoid satu kelas memiliki probabilitas

\exp (β^{T} x) / (\exp (β^{T} x) + 1)

$\exp(\beta^T x) / (\exp(\beta^T x) + 1)$ dan yang lain memiliki probabilitas

1 / (\exp (β^{T} x) + 1)

$1 / (\exp(\beta^T x) + 1)$ .

dsaxton

3

Poster reddit membuat perbedaan yang menurut saya salah atau setidaknya tidak relevan. Apakah salah satu kelas memiliki bobot satu atau tidak, hanya masalah menggeser nilai, yang tidak berpengaruh pada probabilitas.

dsaxton

2

Kemungkinan duplikat dari regresi logistik Biner dan multinomial

Franck Dernoncourt

3

"Tidak sepenuhnya jelas apa yang Anda maksud dengan" softmax vs sigmoid. "" tepat di bawah judul, ada tubuh pertanyaan - sangat mudah untuk dilewatkan, saya tahu. Plus, itu adalah judul yang bagus untuk mengarahkan pertanyaan google agar datang ke sini untuk menjawab apa yang diminta.

michael

77

Fungsi sigmoid digunakan untuk regresi logistik dua kelas, sedangkan fungsi softmax digunakan untuk regresi logistik multiklass (alias MaxEnt, regresi logistik multinomial, Regresi softmax, Maximum Entropy Classifier).

Dalam regresi logistik dua kelas, probabilitas yang diprediksi adalah sebagai berikut, menggunakan fungsi sigmoid:

\begin{aligned} Pr (Y_{i} = 0) & = \frac{e^{- β_{\cdot} X_{i}}}{1 + e^{- β_{0} \cdot X_{i}}} \\ Pr (Y_{i} = 1) & = 1 - Pr (Y_{i} = 0) = \frac{1}{1 + e^{- β_{\cdot} X_{i}}} \end{aligned}

$\begin{align} \Pr(Y_i=0) &= \frac{e^{-\boldsymbol\beta_ \cdot \mathbf{X}_i}} {1 +e^{-\boldsymbol\beta_0 \cdot \mathbf{X}_i}} \, \\ \Pr(Y_i=1) &= 1 - \Pr(Y_i=0) = \frac{1} {1 +e^{-\boldsymbol\beta_ \cdot \mathbf{X}_i}} \end{align}$

Dalam regresi logistik multiklass, dengan kelas , probabilitas yang diprediksi adalah sebagai berikut, menggunakan fungsi softmax: $K$

\begin{aligned} Pr (Y_{i} = k) & = \frac{e^{β_{k} \cdot X_{i}}}{\sum_{0 \leq c \leq K}^{} e^{β_{c} \cdot X_{i}}} \end{aligned}

$\begin{align} \Pr(Y_i=k) &= \frac{e^{\boldsymbol\beta_k \cdot \mathbf{X}_i}} {~\sum_{0 \leq c \leq K}^{}{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}} \, \\ \end{align}$

Seseorang dapat mengamati bahwa fungsi softmax adalah perpanjangan dari fungsi sigmoid ke kasing multiclass, seperti yang dijelaskan di bawah ini. Mari kita lihat regresi logistik multikelas, dengan kelas: $K=2$

\begin{aligned} Pr (Y_{i} = 0) & = \frac{e^{β_{0} \cdot X_{i}}}{\sum_{0 \leq c \leq K}^{} e^{β_{c} \cdot X_{i}}} = \frac{e^{β_{0} \cdot X_{i}}}{e^{β_{0} \cdot X_{i}} + e^{β_{1} \cdot X_{i}}} = \frac{e^{(β_{0} - β_{1}) \cdot X_{i}}}{e^{(β_{0} - β_{1}) \cdot X_{i}} + 1} = \frac{e^{- β_{\cdot} X_{i}}}{1 + e^{- β \cdot X_{i}}} \\ Pr (Y_{i} = 1) & = \frac{e^{β_{1} \cdot X_{i}}}{\sum_{0 \leq c \leq K}^{} e^{β_{c} \cdot X_{i}}} = \frac{e^{β_{1} \cdot X_{i}}}{e^{β_{0} \cdot X_{i}} + e^{β_{1} \cdot X_{i}}} = \frac{1}{e^{(β_{0} - β_{1}) \cdot X_{i}} + 1} = \frac{1}{1 + e^{- β_{\cdot} X_{i}}} \end{aligned}

$\begin{align} \Pr(Y_i=0) &= \frac{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i}} {~\sum_{0 \leq c \leq K}^{}{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}} = \frac{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i}}{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i} + e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}} = \frac{e^{(\boldsymbol\beta_0 - \boldsymbol\beta_1) \cdot \mathbf{X}_i}}{e^{(\boldsymbol\beta_0 - \boldsymbol\beta_1) \cdot \mathbf{X}_i} + 1} = \frac{e^{-\boldsymbol\beta_ \cdot \mathbf{X}_i}} {1 +e^{-\boldsymbol\beta \cdot \mathbf{X}_i}} \\ \, \\ \Pr(Y_i=1) &= \frac{e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}} {~\sum_{0 \leq c \leq K}^{}{e^{\boldsymbol\beta_c \cdot \mathbf{X}_i}}} = \frac{e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}}{e^{\boldsymbol\beta_0 \cdot \mathbf{X}_i} + e^{\boldsymbol\beta_1 \cdot \mathbf{X}_i}} = \frac{1}{e^{(\boldsymbol\beta_0-\boldsymbol\beta_1) \cdot \mathbf{X}_i} + 1} = \frac{1} {1 +e^{-\boldsymbol\beta_ \cdot \mathbf{X}_i}} \, \\ \end{align}$

dengan . Kami melihat bahwa kami memperoleh probabilitas yang sama seperti dalam regresi logistik dua kelas menggunakan fungsi sigmoid. Wikipedia mengembangkan sedikit lebih banyak tentang itu. $\boldsymbol\beta = - (\boldsymbol\beta_0 - \boldsymbol\beta_1)$

Franck Dernoncourt
sumber

1

Saya naif dalam hal ini, Tapi saya melihat ini banyak waktu β = - (β0 − β1) Apa penjelasan yang mungkin untuk itu? Sejauh yang saya tahu di Sigmoids β akan menjadi vektor. Dan mereka biasanya satu untuk dijalankan. Lalu bagaimana β0 dan β1 muncul dalam gambar?

Ishan Bhatt

1

@IshanBhatt komentar ini dapat membantu.

Tom Hale

anehnya, saya masih bisa mundur ke multiclasses hanya menggunakan sigmoid :)

datdinhquoc

15

Mereka, pada kenyataannya, setara, dalam arti bahwa satu dapat diubah menjadi yang lain.

Misalkan data Anda diwakili oleh vektor , dari dimensi arbitrer, dan Anda membuat classifier biner untuk itu, menggunakan transformasi affine diikuti oleh softmax: $\boldsymbol{x}$

(\begin{matrix} z_{0} \\ z_{1} \end{matrix}) = (\begin{matrix} w_{0}^{T} \\ w_{1}^{T} \end{matrix}) x + (\begin{matrix} b_{0} \\ b_{1} \end{matrix}),

$\begin{equation} \begin{pmatrix} z_0 \\ z_1 \end{pmatrix} = \begin{pmatrix} \boldsymbol{w}_0^T \\ \boldsymbol{w}_1^T \end{pmatrix}\boldsymbol{x} + \begin{pmatrix} b_0 \\ b_1 \end{pmatrix}, \end{equation}$

P (C_{i} | x) = softmax (z_{i}) = \frac{e^{z_{i}}}{e^{z_{0}} + e^{z_{1}}}, i \in {0, 1} .

$\begin{equation} P(C_i | \boldsymbol{x}) = \text{softmax}(z_i)=\frac{e^{z_i}}{e^{z_0}+e^{z_1}}, \, \, i \in \{0,1\}. \end{equation}$

Mari kita ubah menjadi classifier biner setara yang menggunakan sigmoid, bukan softmax. Pertama-tama, kita harus memutuskan probabilitas mana yang kita inginkan dari sigmoid untuk output (yang bisa untuk kelas atau ). Pilihan ini benar-benar arbitrer dan jadi saya memilih kelas . Kemudian, classifier saya akan berbentuk: $C_0$ $C_1$ $C_0$

z^{'} = w^{' T} x + b^{'},

$\begin{equation} z' = \boldsymbol{w}'^T \boldsymbol{x} + b', \end{equation}$

P (C_{0} | x) = σ (z^{'}) = \frac{1}{1 + e^{- z^{'}}},

$\begin{equation} P(C_0 | \boldsymbol{x}) = \sigma(z')=\frac{1}{1+e^{-z'}}, \end{equation}$

P (C_{1} | x) = 1 - σ (z^{'}) .

$\begin{equation} P(C_1 | \boldsymbol{x}) = 1-\sigma(z'). \end{equation}$

Pengklasifikasi sama jika probabilitasnya sama, jadi kita harus memaksakan:

σ (z^{'}) = softmax (z_{0})

$\begin{equation} \sigma(z') = \text{softmax}(z_0) \end{equation}$

Mengganti , dan dengan ekspresi mereka dalam bentuk dan dan melakukan beberapa hal langsung manipulasi aljabar, Anda dapat memverifikasi bahwa kesetaraan di atas berlaku jika dan hanya jika dan diberikan oleh: $z_0$ $z_1$ $z'$ $\boldsymbol{w}_0,\boldsymbol{w}_1, \boldsymbol{w}', b_0, b_1, b'$ $\boldsymbol{x}$ $\boldsymbol{w}'$ $b'$

w^{'} = w_{0} - w_{1},

$\begin{equation} \boldsymbol{w}' = \boldsymbol{w}_0-\boldsymbol{w}_1, \end{equation}$

b^{'} = b_{0} - b_{1} .

$\begin{equation} b' = b_0-b_1. \end{equation}$

D ...
sumber

@null Oke, saya jika Anda bertanya, maka Anda tidak mengerti penjelasan saya. Biarkan saya mengatasi masalah spesifik Anda: jika Anda memberi tahu saya bahwa Anda memberi makan data Anda ke sigmoid, maka itu harus berupa angka satu dimensi, . Saat mengumpankannya ke sigmoid, Anda mendapatkan probabilitas berada di salah satu dari dua kelas Anda, misalnya : . Kemudian, probabilitas berada di adalah: . Sekarang mari kita ganti sigmoid Anda dengan softmax. (Bersambung).

x

$x$

x

$x$

C_{0}

$C_0$

P (C_{0} | x) = σ (x)

$P(C_0|x)=σ(x)$

x

$x$

C_{1}

$C_1$

P (C_{1} | x) = 1 - P (C_{0} | x) = σ (x)

$P(C_1|x)=1−P(C_0|x)=σ(x)$

D ...

(Kelanjutan). Untuk menerapkan softmax ke masalah klasifikasi dengan dua kelas, Anda perlu data satu dimensi Anda untuk ditransformasikan menjadi vektor dua dimensi. Karena itu, kita perlu mendefinisikan dan . Mari kita pilih . Karena harus memenuhi , kami memiliki , jadi . Sekarang, kita memiliki dan . Dengan menggunakan ini, Anda dapat segera memverifikasi bahwa .

w_{0}

$w_0$

w_{1}

$w_1$

w_{0} = 1

$w_0=1$

w_{1}

$w_1$

w' = w_{0} - w_{1}

$w′=w_0−w_1$

1 = 1 - w_{1}

$1=1−w_1$

w_{1} = 0

$w_1=0$

z_{0} = w_{0} x = x

$z_0=w_0x=x$

z_{1} = w_{1} x = 0

$z_1=w_1x=0$

σ (x) = softmax (z_{0})

$σ(x)=\text{softmax}(z_0)$

D ...

Selain itu, kombinasi dan apa yang memenuhi (yaitu, ) akan menghasilkan hasil yang sama persis. Ini menunjukkan bahwa softmax memiliki satu parameter redundan. Walaupun ini mungkin tampak bodoh, sebenarnya ini adalah properti yang menarik, karena memungkinkan normalisasi parameter , yang mempromosikan stabilitas numerik dari algoritma dan inferensi pembelajaran. Tapi ini hanya komentar tambahan, tidak penting untuk menjawab pertanyaan Anda :)

w_{0}

$w_0$

w_{1}

$w_1$

w^{'} = w_{0} - w_{1}

$w'=w_0-w_1$

1 = w_{1} - w_{0}

$1=w_1-w_0$

w_{i}

$w_i$

D ...

Terima kasih banyak. Saya mendapatkannya. Dalam komentar pertama Anda probabilitas mungkin harus . Saya sekarang mengerti apa ide di balik transformasi.

P (C_{1} | x)

$P(C_1|x)$

1 - σ (x)

$1-\sigma(x)$

null

Senang Anda memahaminya;) Ya, itu salah ketik, itu jelas harus . Terima kasih telah menunjukkannya!

P (C_{1} | x) = 1 - σ (x)

$P(C_1|x)=1 - \sigma(x)$

D ...

8

Saya perhatikan orang sering diarahkan ke pertanyaan ini ketika mencari apakah akan menggunakan sigmoid vs softmax di jaringan saraf. Jika Anda salah satu dari orang-orang yang membangun pengklasifikasi jaringan saraf, berikut adalah cara memutuskan apakah akan menerapkan sigmoid atau softmax ke nilai output mentah dari jaringan Anda:

Jika Anda memiliki masalah klasifikasi multi-label = ada lebih dari satu "jawaban benar" = output TIDAK saling eksklusif, maka gunakan fungsi sigmoid pada setiap output mentah secara independen. Sigmoid akan memungkinkan Anda untuk memiliki probabilitas tinggi untuk semua kelas Anda, beberapa dari mereka, atau tidak ada satu pun dari mereka. Contoh: mengklasifikasikan penyakit dalam gambar rontgen dada. Gambar mungkin mengandung pneumonia, emfisema, dan / atau kanker, atau tidak ada temuan itu.
Jika Anda memiliki masalah klasifikasi multi-kelas = hanya ada satu "jawaban yang benar" = outputnya saling eksklusif, maka gunakan fungsi softmax. Softmax akan menegakkan bahwa jumlah probabilitas kelas output Anda sama dengan satu, jadi untuk meningkatkan probabilitas kelas tertentu, model Anda harus mengurangi kemungkinan setidaknya satu kelas lainnya dari kelas yang sama. Contoh: mengklasifikasikan gambar dari set data tulisan tangan MNIST. Satu gambar digit hanya memiliki satu identitas sejati - gambar tidak boleh berupa angka 7 dan 8 pada saat yang bersamaan.

Referensi: untuk penjelasan lebih rinci tentang kapan menggunakan sigmoid vs softmax dalam desain jaringan saraf, termasuk contoh perhitungan, silakan lihat artikel ini: "Klasifikasi: Sigmoid vs. Softmax."

Veritessa
sumber

-1

Menambah semua jawaban sebelumnya - Saya ingin menyebutkan fakta bahwa masalah klasifikasi multi-kelas dapat direduksi menjadi beberapa masalah klasifikasi biner menggunakan metode "satu-vs-semua", yaitu memiliki C sigmoids (ketika C adalah jumlah dari kelas) dan menafsirkan setiap sigmoid menjadi probabilitas berada di kelas tertentu atau tidak, dan mengambil probabilitas maks.

Jadi misalnya, dalam contoh digit MNIST, Anda bisa menggunakan softmax, atau sepuluh sigmoids. Sebenarnya inilah yang dilakukan Andrew Ng dalam kursus Coursera ML-nya. Anda dapat memeriksa di sini bagaimana Andrew Ng digunakan 10 sigmoids untuk klasifikasi multiclass (diadaptasi dari Matlab untuk python oleh saya), dan di sini adalah adaptasi Softmax saya di python.

Juga, perlu dicatat bahwa sementara fungsinya setara (untuk tujuan klasifikasi multikelas) mereka sedikit berbeda dalam implementasinya (terutama yang berkaitan dengan turunannya , dan bagaimana cara mewakili y).

Keuntungan besar menggunakan beberapa klasifikasi biner (yaitu Sigmoids) di atas klasifikasi multikelas tunggal (yaitu Softmax) - adalah bahwa jika softmax Anda terlalu besar (misalnya jika Anda menggunakan satu kata panas yang disematkan dengan ukuran kamus 10K atau lebih ) - bisa jadi tidak efisien untuk melatihnya. Yang bisa Anda lakukan adalah mengambil sebagian kecil dari set latihan Anda dan menggunakannya untuk melatih hanya sebagian kecil dari sigmoids Anda. Ini adalah ide utama di balik Sampling Negatif .

David Refaeli
sumber

Fungsi tidak setara karena jaringan softmax dibatasi untuk menghasilkan distribusi probabilitas atas kelas sebagai output: vektor adalah non-negatif dan jumlah ke 1. Unit sigmoid non-negatif, tetapi mereka dapat menjumlahkan ke nomor berapa pun antara 0 dan ; ini bukan distribusi probabilitas yang valid. Perbedaan ini sangat penting untuk menandai bagaimana kedua fungsi berbeda.

C

$C$

C

$C$

Pasang kembali Monica

Apa definisi Anda tentang yang setara? Milik saya adalah: Anda dapat menggunakan klasifikasi multikelas tanpa masalah. Juga - setiap klasifikasi multikelas yang menggunakan softmax dapat ditransformasikan ke klasifikasi biner satu-vs-semua yang menggunakan sigmoids. Mengapa saya harus peduli dengan distribusi hasil penjumlahan ke 1?

David Refaeli

Argumen Anda tentang klasifikasi multi-label menunjukkan mengapa sigmoid dan softmax tidak setara. Ketika menggunakan softmax, meningkatkan probabilitas satu kelas mengurangi probabilitas total semua kelas lain (karena jumlah-ke-1). Menggunakan sigmoid, meningkatkan probabilitas satu kelas tidak mengubah probabilitas total kelas lain. Pengamatan ini adalah alasan bahwa sigmoid masuk akal untuk klasifikasi multi-label: contoh tunggal dapat menjadi kelasSum-to-1 juga merupakan alasan softmax tidak cocok untuk klasifikasi multi-label.

0, 1, 2, \dots, C

$0, 1, 2, \dots , C$

Pasang kembali Monica

Aku kehilanganmu. Untuk semua tujuan praktis yang saya ketahui, multiple sigmoids = 1 softmax. Saya bahkan menambahkan kasus pengambilan sampel negatif, di mana beberapa sigmoids sebenarnya memiliki keunggulan dibandingkan dengan softmax.

David Refaeli

Fungsi Softmax vs Sigmoid di Logistic classifier?

Jawaban: