Saya mengamati bahwa Caffe (kerangka pembelajaran yang mendalam) menggunakan Softmax Loss Layer SoftmaxWithLoss
sebagai lapisan keluaran untuk sebagian besar sampel model .
Sejauh yang saya tahu, lapisan Softmax Loss adalah kombinasi dari Multinomial Logistic Loss Layer dan Softmax Layer .
Dari Caffe, mereka mengatakan itu
Komputasi gradien Softmax Loss Layer lebih stabil secara numerik
Namun, penjelasan ini bukan jawaban yang saya inginkan, penjelasannya hanya membandingkan kombinasi Multinomial Logistic Loss Layer dan Softmax Loss layer alih-alih lapis demi lapis. Tetapi tidak dibandingkan dengan jenis fungsi kerugian lainnya.
Namun, saya ingin tahu lebih lanjut apa perbedaan / kelebihan / kekurangan dari 3 fungsi kesalahan ini yaitu Multinomial Logistic Loss , Cross Entropy (CE) dan Square Error (SE) dalam perspektif pembelajaran terawasi? Adakah artikel yang mendukung?
y-t
. willamette.edu/~gorr/classes/cs449/classify.htmlJawaban:
Menurut pendapat saya, fungsi kerugian adalah fungsi objektif yang kami inginkan agar jaringan saraf kami mengoptimalkan bobotnya sesuai dengan itu. Oleh karena itu, ini adalah tugas khusus dan juga entah bagaimana empiris. Supaya jelas, Multinomial Logistic Loss dan Cross Entropy Loss adalah sama (silakan lihat http://ufldl.stanford.edu/wiki/index.php/Softmax_Regression ). Fungsi biaya Multinomial Logistic Loss adalah seperti iniJ(θ)=−1m[∑mi=1y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))].
Biasanya digunakan untuk masalah klasifikasi. The Square Error memiliki persamaan seperti12N∑Ni=1∥x1i−x2i∥22.
Oleh karena itu, biasanya digunakan untuk meminimalkan menggunakan beberapa kesalahan konstruksi.
EDIT: @MartinThoma Formula di atas kerugian logistik multinomial hanya untuk kasus biner, untuk kasus umum, itu harus , di mana K adalah sejumlah kategori.J(θ)=−[∑mi=1∑Kk=11{y(i)=k}logP(y(i)=k|x(i);θ)]
sumber
Kehilangan logistik multinomial secara akuratif sama dengan cross entropy. Lihatlah fungsi ini (fungsi biaya dalam softmax ):
Fungsi indikator ( ) menentukan apakah bawah adalah 0 atau 1 dalam definisi lintas entropi , yang diberi label sebagai panas dalam data pelatihan, dan1{y(i)=k} p(x) p(y(i)=k∣x(i);θ) adalah kemungkinan bersyarat dari softmax (q (x) seperti yang ditunjukkan di bawah).
Dan MSE sebagian besar untuk situasi di mana fungsi tautan adalah fungsi kesatuan (distribusi respons mengikuti distribusi normal), regresi linier standar, sedangkan cross entropy biasanya untuk di mana fungsi tautan adalah fungsi logit. Ini perbandingan yang luar biasa yang dapat Anda lihat.
Kecuali yang ada di tautan, rekomendasikan ini sebagai ilustrasi: https://github.com/rasbt/python-machine-learning-book/blob/master/faq/softmax_regress.md
sumber