Multinomial Logistic Loss vs (Cross Entropy vs Square Error)

Saya mengamati bahwa Caffe (kerangka pembelajaran yang mendalam) menggunakan Softmax Loss Layer SoftmaxWithLoss sebagai lapisan keluaran untuk sebagian besar sampel model .

Sejauh yang saya tahu, lapisan Softmax Loss adalah kombinasi dari Multinomial Logistic Loss Layer dan Softmax Layer .

Dari Caffe, mereka mengatakan itu

Komputasi gradien Softmax Loss Layer lebih stabil secara numerik

Namun, penjelasan ini bukan jawaban yang saya inginkan, penjelasannya hanya membandingkan kombinasi Multinomial Logistic Loss Layer dan Softmax Loss layer alih-alih lapis demi lapis. Tetapi tidak dibandingkan dengan jenis fungsi kerugian lainnya.

Namun, saya ingin tahu lebih lanjut apa perbedaan / kelebihan / kekurangan dari 3 fungsi kesalahan ini yaitu Multinomial Logistic Loss , Cross Entropy (CE) dan Square Error (SE) dalam perspektif pembelajaran terawasi? Adakah artikel yang mendukung?

multinomial entropy sums-of-squares softmax karfai
sumber

Sekedar petunjuk: Saya kira Anda akan mendapatkan jawaban yang lebih cepat jika Anda menambahkan tag "caffe" ke pertanyaan Anda. Juga mempostingnya di stackoverflow bukannya stackexchange mungkin memberikan lebih banyak perhatian).

mcExchange

Kombinasi tersebut membuat gradien mudah dihitung, adil y-t. willamette.edu/~gorr/classes/cs449/classify.html

Jingpeng Wu

Jawaban:

Menurut pendapat saya, fungsi kerugian adalah fungsi objektif yang kami inginkan agar jaringan saraf kami mengoptimalkan bobotnya sesuai dengan itu. Oleh karena itu, ini adalah tugas khusus dan juga entah bagaimana empiris. Supaya jelas, Multinomial Logistic Loss dan Cross Entropy Loss adalah sama (silakan lihat http://ufldl.stanford.edu/wiki/index.php/Softmax_Regression ). Fungsi biaya Multinomial Logistic Loss adalah seperti ini $J(\theta) = -\frac{1}{m} \left[ \sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1-h_\theta(x^{(i)})) \right].$

Biasanya digunakan untuk masalah klasifikasi. The Square Error memiliki persamaan seperti $\frac 1 {2N} \sum_{i=1}^N \| x^1_i - x^2_i \|_2^2.$

Oleh karena itu, biasanya digunakan untuk meminimalkan menggunakan beberapa kesalahan konstruksi.

EDIT: @MartinThoma Formula di atas kerugian logistik multinomial hanya untuk kasus biner, untuk kasus umum, itu harus , di mana K adalah sejumlah kategori. $J(\theta) = -\left[ \sum_{i=1}^{m} \sum_{k=1}^{K} 1\left\{y^{(i)} = k\right\} \log P(y^{(i)} = k | x^{(i)} ; \theta) \right]$

Beahacker
sumber

Dalam Caffe, MultinomialLogisticLoss adalah , jadi siapa yang salah di sini?

\frac{- 1}{N} \sum_{n = 1}^{N} \log (p_{n, l_{n}})

$\frac{-1}{N}\sum_{n=1}^{N}\log(p_{n,l_n})$

moi

Tidak salah, adalah variabel biner, pada akhirnya, dapat direduksi menjadi formulasi Anda.

y^{i}

$y^i$

beahacker

Saya pikir multinomail kerugian logistik tanpa puncak kedua, jadi

J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} y^{(i)} \log h_{θ} (x^{(i)})]

$J(\theta) = - \frac{1}{m} [\sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)})]$

Martin Thoma

@ MartinThoma Formula saya hanya untuk kasus biner, untuk kasus umum, itu harus

J (θ) = - [\sum_{i = 1}^{m} \sum_{k = 1}^{K} 1 {y^{(i)} = k} \log P (y^{(i)} = k | x^{(i)}; θ)]

$J(\theta) = -\left[ \sum_{i=1}^{m} \sum_{k=1}^{K} 1\left\{y^{(i)} = k\right\} \log P(y^{(i)} = k | x^{(i)} ; \theta) \right]$

beahacker

@beahacker Bisakah Anda memberi tahu saya mengapa pertemuan kedua tidak termasuk dalam kasus multinominal seperti yang ditunjukkan oleh Martin Thoma. Saya mencoba memahami mengapa ini dilakukan seperti itu. Setidaknya Anda bisa mengarahkan saya ke beberapa sumber daya untuk melihat.

Nandeesh

Saya ingin tahu lebih lanjut apa perbedaan / kelebihan / kekurangan dari 3 fungsi kesalahan ini yaitu Multinomial Logistic Loss, Cross Entropy (CE) dan Square Error (SE) dalam perspektif pembelajaran terawasi?

Kehilangan logistik multinomial secara akuratif sama dengan cross entropy. Lihatlah fungsi ini (fungsi biaya dalam softmax ):

J (θ) = - \sum_{i = 1}^{m} \sum_{k = 1}^{K} 1 {y^{(i)} = k} \log p (y^{(i)} = k ∣ x^{(i)}; θ)

$J( \theta ) = - \sum^m_{i=1} \sum^K_{k=1} 1 \{ y^{(i)} = k \} \log p(y^{(i)} = k \mid x^{(i)} ; \theta)$ mana m adalah nomor sampel, K adalah nomor kelas.

Fungsi indikator ( ) menentukan apakah bawah adalah 0 atau 1 dalam definisi lintas entropi , yang diberi label sebagai panas dalam data pelatihan, dan $1 \{ y^{(i)} = k \}$ $p(x)$ $p(y^{(i)} = k \mid x^{(i)} ; \theta)$ adalah kemungkinan bersyarat dari softmax (q (x) seperti yang ditunjukkan di bawah).

- \sum_{x} p (x) \log q (x)

$-\sum_x p(x) \log q(x)$

Dan MSE sebagian besar untuk situasi di mana fungsi tautan adalah fungsi kesatuan (distribusi respons mengikuti distribusi normal), regresi linier standar, sedangkan cross entropy biasanya untuk di mana fungsi tautan adalah fungsi logit. Ini perbandingan yang luar biasa yang dapat Anda lihat.

Adakah artikel yang mendukung?

Kecuali yang ada di tautan, rekomendasikan ini sebagai ilustrasi: https://github.com/rasbt/python-machine-learning-book/blob/master/faq/softmax_regress.md

Lerner Zhang
sumber