Namun, untuk SVM hard margin, seluruh fungsi objektif hanya
Apakah itu berarti SVM hard margin hanya meminimalkan pembuat peraturan tanpa fungsi kerugian? Kedengarannya sangat aneh.
Nah, jika adalah fungsi kerugian dalam kasus ini, dapatkah kita menyebutnya fungsi kehilangan kuadratik? Jika demikian, mengapa fungsi kerugian SVM hard margin menjadi regularizer dalam SVM soft margin dan membuat perubahan dari kerugian kuadratik ke kerugian engsel?
svm
loss-functions
Roun
sumber
sumber
Jawaban:
Istilah kehilangan engsel dalam margin lunak SVM menghukum kesalahan klasifikasi . Dalam SVM hard margin, menurut definisi, tidak ada kesalahan klasifikasi.∑imax(0,1−yi(w⊺xi+b))
Ini memang berarti bahwa margin keras SVM mencoba meminimalkan . Karena rumusan masalah SVM, marginnya adalah∥w∥2 . Dengan demikian, meminimalkan norma w secara geometris setara dengan memaksimalkan margin. Apa yang kita inginkan!2/∥w∥ w
Regularisasi adalah teknik untuk menghindari overfitting dengan menghukum koefisien besar dalam vektor solusi. Dalam keras marjin SVM adalah baik fungsi kerugian dan sebuah L 2 regularizer.∥w∥2 L2
Dalam SVM soft-margin, istilah kerugian engsel juga bertindak seperti regulator tetapi pada variabel slack, bukan dan di L 1 daripada L 2 . Regulasi L 1 menginduksi sparsity, itulah sebabnya standar SVM jarang dalam hal vektor dukungan (berbeda dengan SVM kuadrat-terkecil).w L.1 L.2 L.1
sumber
Hanya untuk memperjelas,12∥ w ∥2
diminimalkan dengan batasan bahwa titik-titiknya terpisah secara linear (Yaitu seseorang dapat menggambar hyperplane yang memisahkan keduanya dengan sempurna). Dengan kata lain, satu-satunya nilai yang diizinkan dari w yang dapat kita pertimbangkan sebagai solusi adalah nilai yang memisahkan dua set poin.
Sekarang, diperkirakan bahwa margin keras SVM "overfits" lebih mudah daripada margin lunak. Ini lebih mudah untuk dibayangkan dengan RBF SVM dengan γ yang cukup tinggiγ , yang dapat membuat (terlalu) rumit dan (berpotensi) batas keputusan yang terlalu pas. Semakin sulit margin (ditiru secara tidak tepat dengan "C" yang lebih tinggi), semakin sulit pencarian akan mencoba menemukan batas keputusan yang dengan sempurna mengklasifikasikan dua set poin.
Ketika kita pindah ke "margin lunak", kendala santai dan diganti dengan pengekangan melalui pengenalan "kendur". Variabel kendur ini didefinisikan dengan istilah "kehilangan engsel". Setelah penyederhanaan, seseorang tiba di engsel + l2 seperti istilah kerugian yang semua orang kaitkan dengan SVM. FWIW, saya suka membingkai SVM sebagai lebih dari masalah optimisasi daripada masalah "ikuti gradien" yang ada di mana-mana.
sumber