Seberapa berbeda Dukungan Regresi Vektor dibandingkan dengan SVM?

SVM, baik untuk klasifikasi dan regresi, adalah tentang mengoptimalkan fungsi melalui fungsi biaya, namun perbedaannya terletak pada pemodelan biaya.

Perhatikan ilustrasi mesin vektor pendukung yang digunakan untuk klasifikasi ini.

Karena tujuan kami adalah pemisahan yang baik dari dua kelas, kami mencoba untuk merumuskan batas yang meninggalkan margin selebar mungkin antara contoh yang paling dekat dengan itu (vektor dukungan), dengan contoh jatuh ke margin ini menjadi suatu kemungkinan, meskipun menimbulkan biaya tinggi (dalam hal SVM margin lunak).

Dalam kasus regresi, tujuannya adalah untuk menemukan kurva yang meminimalkan penyimpangan dari titik-titik padanya. Dengan SVR, kami juga menggunakan margin, tetapi dengan tujuan yang sama sekali berbeda - kami tidak peduli dengan instance yang berada dalam margin tertentu di sekitar kurva, karena kurva cocok dengan mereka. Margin ini ditentukan oleh parameter dari SVR. Contoh yang termasuk dalam margin tidak dikenakan biaya apa pun, itu sebabnya kami menyebut kerugian sebagai 'epsilon-tidak sensitif'. $\epsilon$

Untuk kedua sisi fungsi keputusan, kami mendefinisikan masing-masing variabel slack, , untuk memperhitungkan penyimpangan di luar zona . $\xi_+, \xi_-$ $\epsilon$

Ini memberi kita masalah optimisasi (lihat E. Alpaydin, Pengantar Pembelajaran Mesin, Edisi ke-2)

m i n \frac{1}{2} | | w | |^{2} + C \sum_{t} (ξ_{+} + ξ_{-})

$min \frac{1}{2} ||w||^2 + C\sum_{t} (\xi_+ + \xi_-)$

tunduk pada

r^{t} - (w^{T} x + w_{0}) \leq ϵ + ξ_{+}^{t} (w^{T} x + w_{0}) - r^{t} \leq ϵ + ξ_{-}^{t} ξ_{+}^{t}, ξ_{-}^{t} \geq 0

$r^t - (\textbf{w}^T \textbf{x} + w_0) \leq \epsilon + \xi_{+}^{t}\\ (\textbf{w}^T \textbf{x} + w_0)-r^t \leq \epsilon + \xi_{-}^{t}\\ \xi_{+}^{t},\xi_{-}^{t} \geq 0$

Contoh di luar margin dari SVM regresi mengeluarkan biaya dalam optimasi, sehingga bertujuan untuk meminimalkan biaya ini sebagai bagian dari optimasi memperbaiki fungsi keputusan kami, tetapi pada kenyataannya tidak memaksimalkan margin karena akan menjadi kasus dalam klasifikasi SVM.

Ini seharusnya menjawab dua bagian pertama dari pertanyaan Anda.

Mengenai pertanyaan ketiga Anda: seperti yang mungkin Anda ambil sekarang, adalah parameter tambahan dalam kasus SVR. Parameter dari SVM biasa masih tetap, sehingga hukuman istilah serta parameter lain yang diperlukan oleh kernel, seperti dalam kasus kernel RBF. $\epsilon$ $C$ $\gamma$

Deemel
sumber

Seberapa berbeda Dukungan Regresi Vektor dibandingkan dengan SVM?

Jawaban: