kerugian dan kerugian engsel vs kerugian logistik

14

Kehilangan engsel dapat didefinisikan menggunakan dan kehilangan log dapat didefinisikan sebagaimaks(0,1-ysayawTxsaya)catatan(1+exp(-ysayawTxsaya))

Saya punya pertanyaan berikut:

  1. Adakah kerugian kerugian engsel (mis. Peka terhadap outlier seperti yang disebutkan dalam http://www.unc.edu/~yfliu/papers/rsvm.pdf )?

  2. Apa perbedaan, kelebihan, kekurangan satu dibandingkan dengan yang lain?

pengguna570593
sumber

Jawaban:

22

Minimalisasi kerugian logaritmik mengarah pada keluaran probabilistik yang berperilaku baik.

Hinge loss mengarah ke beberapa (tidak dijamin) sparsity pada dual, tetapi tidak membantu pada estimasi probabilitas. Sebaliknya, itu menghukum kesalahan klasifikasi (itu sebabnya sangat berguna untuk menentukan margin): berkurangnya engsel-kerugian disertai dengan penurunan kesalahan klasifikasi margin.

Jadi, meringkas:

  • Kehilangan logaritmik mengarah pada estimasi probabilitas yang lebih baik dengan biaya akurasi

  • Kehilangan engsel mengarah ke akurasi yang lebih baik dan beberapa sparsity dengan biaya sensitivitas yang jauh lebih rendah mengenai probabilitas

Pembakar
sumber
1
+1. Meminimalkan kerugian logistik sesuai dengan memaksimalkan kemungkinan binomial. Meminimalkan kerugian kuadrat sesuai dengan memaksimalkan kemungkinan Gaussian (itu hanya regresi OLS; untuk klasifikasi 2-kelas itu sebenarnya setara dengan LDA). Apakah Anda tahu jika meminimalkan kerugian engsel sesuai dengan memaksimalkan beberapa kemungkinan lainnya? Yaitu apakah ada model probabilistik yang sesuai dengan kehilangan engsel?
Amoeba berkata Reinstate Monica
1
@amoeba Ini pertanyaan yang menarik, tetapi SVM pada dasarnya tidak didasarkan pada pemodelan statistik. Karena itu, periksa jawaban ini oleh Glen_b. Seluruh utas adalah tentang hal itu, tetapi untuk engsel epsilon-bukan sebagai gantinya.
Firebug
4

@ Firebug punya jawaban yang bagus (+1). Sebenarnya, saya punya pertanyaan serupa di sini.

Apa dampak dari memilih fungsi kerugian yang berbeda dalam klasifikasi untuk memperkirakan kerugian 0-1

Saya hanya ingin menambahkan lebih banyak pada keuntungan besar lain dari kerugian logistik: interpretasi probabilistik. Contohnya, bisa ditemukan di sini

Secara khusus, regresi logistik adalah model klasik dalam literatur statistik. (Lihat, Apa arti nama "Regresi Logistik"? Untuk penamaan.) Ada banyak konsep penting terkait dengan kehilangan logistik, seperti memaksimalkan estimasi kemungkinan log, tes rasio kemungkinan, serta asumsi pada binomial. Berikut beberapa diskusi terkait.

Uji rasio kemungkinan dalam R

Mengapa Regresi Logistik tidak disebut Klasifikasi Logistik?

Apakah ada asumsi awal tentang regresi logistik?

Perbedaan antara model logit dan probit

Haitao Du
sumber
1

Karena @ hxd1011 menambahkan keuntungan lintas entropi, saya akan menambahkan satu kelemahannya.

Cross entropy error adalah salah satu dari banyak ukuran jarak antara distribusi probabilitas, tetapi satu kelemahannya adalah bahwa distribusi dengan ekor panjang dapat dimodelkan dengan buruk dengan terlalu banyak bobot yang diberikan untuk peristiwa yang tidak mungkin.

Aerin
sumber