Apa fungsi kerugian SVM hard margin?

23

max(0,1yi(wxi+b))

12w2+Cimax(0,1yi(wxi+b))
w2max(0,1yi(wxi+b))

Namun, untuk SVM hard margin, seluruh fungsi objektif hanya

12w2
Apakah itu berarti SVM hard margin hanya meminimalkan pembuat peraturan tanpa fungsi kerugian? Kedengarannya sangat aneh.

Nah, jika 12w2 adalah fungsi kerugian dalam kasus ini, dapatkah kita menyebutnya fungsi kehilangan kuadratik? Jika demikian, mengapa fungsi kerugian SVM hard margin menjadi regularizer dalam SVM soft margin dan membuat perubahan dari kerugian kuadratik ke kerugian engsel?

Roun
sumber
Untuk yang saya mengerti, margin keras berarti Anda tidak menerima data dalam margin Anda. Sebagai akibatnya, maks (0, kalkulasi) akan selalu mengembalikan 0.
fxm

Jawaban:

26

Istilah kehilangan engsel dalam margin lunak SVM menghukum kesalahan klasifikasi . Dalam SVM hard margin, menurut definisi, tidak ada kesalahan klasifikasi.imax(0,1yi(wxi+b))

Ini memang berarti bahwa margin keras SVM mencoba meminimalkan . Karena rumusan masalah SVM, marginnya adalahw2 . Dengan demikian, meminimalkan norma w secara geometris setara dengan memaksimalkan margin. Apa yang kita inginkan!2/ww

Regularisasi adalah teknik untuk menghindari overfitting dengan menghukum koefisien besar dalam vektor solusi. Dalam keras marjin SVM adalah baik fungsi kerugian dan sebuah L 2 regularizer.w2L2

Dalam SVM soft-margin, istilah kerugian engsel juga bertindak seperti regulator tetapi pada variabel slack, bukan dan di L 1 daripada L 2 . Regulasi L 1 menginduksi sparsity, itulah sebabnya standar SVM jarang dalam hal vektor dukungan (berbeda dengan SVM kuadrat-terkecil).wL.1L.2L.1

Marc Claesen
sumber
Bisakah Anda menjelaskan dua paragraf terakhir dengan lebih banyak detail dan matematika?
Nain
0

Hanya untuk memperjelas,

12w2
diminimalkan dengan batasan bahwa titik-titiknya terpisah secara linear (Yaitu seseorang dapat menggambar hyperplane yang memisahkan keduanya dengan sempurna). Dengan kata lain, satu-satunya nilai yang diizinkan dari w yang dapat kita pertimbangkan sebagai solusi adalah nilai yang memisahkan dua set poin.

Sekarang, diperkirakan bahwa margin keras SVM "overfits" lebih mudah daripada margin lunak. Ini lebih mudah untuk dibayangkan dengan RBF SVM dengan γ yang cukup tinggiγ , yang dapat membuat (terlalu) rumit dan (berpotensi) batas keputusan yang terlalu pas. Semakin sulit margin (ditiru secara tidak tepat dengan "C" yang lebih tinggi), semakin sulit pencarian akan mencoba menemukan batas keputusan yang dengan sempurna mengklasifikasikan dua set poin.

Ketika kita pindah ke "margin lunak", kendala santai dan diganti dengan pengekangan melalui pengenalan "kendur". Variabel kendur ini didefinisikan dengan istilah "kehilangan engsel". Setelah penyederhanaan, seseorang tiba di engsel + l2 seperti istilah kerugian yang semua orang kaitkan dengan SVM. FWIW, saya suka membingkai SVM sebagai lebih dari masalah optimisasi daripada masalah "ikuti gradien" yang ada di mana-mana.

Ishan Patel
sumber