Apa fungsi kerugian SVM hard margin?

23

$\max(0,1-y_i(w^\intercal x_i+b))$

\frac{1}{2} ‖ w ‖^{2} + C \sum_{i} max (0, 1 - y_{i} (w^{⊺} x_{i} + b))

$\frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b))$

‖ w ‖^{2}

$\|w\|^2$

max (0, 1 - y_{i} (w^{⊺} x_{i} + b))

$\max(0,1-y_i(w^\intercal x_i+b))$

Namun, untuk SVM hard margin, seluruh fungsi objektif hanya

\frac{1}{2} ‖ w ‖^{2}

$\frac{1}{2}\|w\|^2$ Apakah itu berarti SVM hard margin hanya meminimalkan pembuat peraturan tanpa fungsi kerugian? Kedengarannya sangat aneh.

Nah, jika $\frac{1}{2}\|w\|^2$ adalah fungsi kerugian dalam kasus ini, dapatkah kita menyebutnya fungsi kehilangan kuadratik? Jika demikian, mengapa fungsi kerugian SVM hard margin menjadi regularizer dalam SVM soft margin dan membuat perubahan dari kerugian kuadratik ke kerugian engsel?

svm loss-functions Roun
sumber

Untuk yang saya mengerti, margin keras berarti Anda tidak menerima data dalam margin Anda. Sebagai akibatnya, maks (0, kalkulasi) akan selalu mengembalikan 0.

fxm

26

Istilah kehilangan engsel dalam margin lunak SVM menghukum kesalahan klasifikasi . Dalam SVM hard margin, menurut definisi, tidak ada kesalahan klasifikasi. $\sum_i\max(0,1-y_i(\mathbf{w}^\intercal \mathbf{x}_i+b))$

Ini memang berarti bahwa margin keras SVM mencoba meminimalkan . Karena rumusan masalah SVM, marginnya adalah $\|\mathbf{w}\|^2$ . Dengan demikian, meminimalkan norma secara geometris setara dengan memaksimalkan margin. Apa yang kita inginkan! $2/\|\mathbf{w}\|$ $\mathbf{w}$

Regularisasi adalah teknik untuk menghindari overfitting dengan menghukum koefisien besar dalam vektor solusi. Dalam keras marjin SVM adalah baik fungsi kerugian dan sebuah regularizer. $\|\mathbf{w}\|^2$ $L_2$

Dalam SVM soft-margin, istilah kerugian engsel juga bertindak seperti regulator tetapi pada variabel slack, bukan dan di daripada . menginduksi sparsity, itulah sebabnya standar SVM jarang dalam hal vektor dukungan (berbeda dengan SVM kuadrat-terkecil). $\mathbf{w}$ $L_1$ $L_2$ $L_1$

Marc Claesen
sumber

Bisakah Anda menjelaskan dua paragraf terakhir dengan lebih banyak detail dan matematika?

Nain

0

Hanya untuk memperjelas,

\frac{1}{2} ‖ w ‖^{2}

$\frac{1}{2}\|w\|^2$ diminimalkan dengan batasan bahwa titik-titiknya terpisah secara linear (Yaitu seseorang dapat menggambar hyperplane yang memisahkan keduanya dengan sempurna). Dengan kata lain, satu-satunya nilai yang diizinkan dari w yang dapat kita pertimbangkan sebagai solusi adalah nilai yang memisahkan dua set poin.

Sekarang, diperkirakan bahwa margin keras SVM "overfits" lebih mudah daripada margin lunak. Ini lebih mudah untuk dibayangkan dengan RBF SVM dengan cukup tinggi $\gamma$ , yang dapat membuat (terlalu) rumit dan (berpotensi) batas keputusan yang terlalu pas. Semakin sulit margin (ditiru secara tidak tepat dengan "C" yang lebih tinggi), semakin sulit pencarian akan mencoba menemukan batas keputusan yang dengan sempurna mengklasifikasikan dua set poin.

Ketika kita pindah ke "margin lunak", kendala santai dan diganti dengan pengekangan melalui pengenalan "kendur". Variabel kendur ini didefinisikan dengan istilah "kehilangan engsel". Setelah penyederhanaan, seseorang tiba di engsel + l2 seperti istilah kerugian yang semua orang kaitkan dengan SVM. FWIW, saya suka membingkai SVM sebagai lebih dari masalah optimisasi daripada masalah "ikuti gradien" yang ada di mana-mana.

Ishan Patel
sumber

Apa fungsi kerugian SVM hard margin?

Jawaban: