Klasifikasi SVM non-linear dengan kernel RBF

Saya menerapkan classifier SVM non-linear dengan RBF kernel. Saya diberitahu bahwa satu-satunya perbedaan dari SVM normal adalah bahwa saya harus mengganti produk dot dengan fungsi kernel: Saya tahu bagaimana SVM linear normal bekerja, yaitu, setelah menyelesaikan masalah optimasi kuadratik (tugas ganda), saya menghitung hyperplane pembagian optimal seperti dan offset dari hyperplane , di mana adalah daftar vektor pelatihan saya, adalah label masing-masing ( ),

K (x_{i}, x_{j}) = \exp (- \frac{| | x_{i} - x_{j} | |^{2}}{2 σ^{2}})

$K(x_i,x_j)=\exp\left(-\frac{||x_i-x_j||^2}{2\sigma^2}\right)$

w^{*} = \sum_{i \in S V} h_{i} y_{i} x_{i}

$w^*=\sum_{i \in SV} h_i y_i x_i$

b^{*} = \frac{1}{| S V |} \sum_{i \in S V} (y_{i} - \sum_{j = 1}^{N} (h_{j} y_{j} x_{j}^{T} x_{i}))

$b^*=\frac{1}{|SV|}\sum_{i \in SV}\left(y_i - \sum_{j=1}^N\left(h_j y_j x_j^T x_i\right)\right)$

x

$x$

y

$y$

y_{i} \in {- 1, 1}

$y_i \in \{-1,1\}$

h

$h$ adalah koefisien Lagrangian dan adalah sekumpulan vektor dukungan. Setelah itu, saya bisa menggunakan dan sendirian untuk dengan mudah mengklasifikasikan: .

S V

$SV$

w^{*}

$w^*$

b^{*}

$b^*$

c_{x} = sign (w^{T} x + b)

$c_x=\text{sign}(w^Tx+b)$

Namun, saya tidak berpikir saya bisa melakukan hal itu dengan kernel RBF. Saya menemukan beberapa bahan yang menunjukkan bahwa . Itu akan membuatnya mudah. Namun demikian, saya tidak berpikir dekomposisi seperti itu ada untuk kernel ini dan tidak disebutkan di mana pun. Apakah situasinya sehingga semua vektor dukungan diperlukan untuk klasifikasi? Jika demikian, bagaimana cara saya mengklasifikasikan dalam hal itu? $K(x,y)=\phi(x)\phi(y)$

classification svm kernel-trick nonlinear Jan Hadáček
sumber

Bukan jawaban yang lengkap tapi saya punya slide ini di uni: patterns.enm.bris.ac.uk/files/lecture10-2010.pdf

tristan

Biarkan mewakili ruang input Anda, yaitu ruang tempat data Anda berada. Pertimbangkan fungsi sehingga mengambil titik dari ruang input Anda dan memetakannya ke titik di . Sekarang, katakanlah kami telah memetakan semua titik data Anda dari ke ruang baru ini . Sekarang, jika Anda mencoba menyelesaikan linear svm normal di ruang baru ini alih-alih , Anda akan melihat bahwa semua kerja sebelumnya hanya terlihat sama, kecuali bahwa semua titik direpresentasikan sebagai $\mathcal{X}$ $\Phi:\mathcal{X} \rightarrow \mathcal{F}$ $\mathcal{X}$ $\mathcal{F}$ $\mathcal{X}$ $\mathcal{F}$ $\mathcal{F}$ $\mathcal{X}$ $x_i$ $\Phi(x_i)$ dan alih-alih menggunakan (produk titik) yang merupakan produk dalam alami untuk ruang Euclidean, kami menggantinya dengan yang mewakili produk dalam alami di ruang baru . Jadi, pada akhirnya, akan terlihat seperti, $x^Ty$ $\langle \Phi(x), \Phi(y) \rangle$ $\mathcal{F}$ $w^*$

w^{*} = \sum_{i \in S V} h_{i} y_{i} Φ (x_{i})

$w^*=\sum_{i \in SV} h_i y_i \Phi(x_i)$

dan karenanya,

⟨ w^{*}, Φ (x) ⟩ = \sum_{i \in S V} h_{i} y_{i} ⟨ Φ (x_{i}), Φ (x) ⟩

$\langle w^*, \Phi(x) \rangle = \sum_{i \in SV} h_i y_i \langle \Phi(x_i), \Phi(x) \rangle$

Demikian pula,

b^{*} = \frac{1}{| S V |} \sum_{i \in S V} (y_{i} - \sum_{j = 1}^{N} (h_{j} y_{j} ⟨ Φ (x_{j}), Φ (x_{i}) ⟩))

$b^*=\frac{1}{|SV|}\sum_{i \in SV}\left(y_i - \sum_{j=1}^N\left(h_j y_j \langle \Phi(x_j), \Phi(x_i)\rangle\right)\right)$

dan aturan klasifikasi Anda terlihat seperti: . $c_x=\text{sign}(\langle w, \Phi(x) \rangle+b)$

Sejauh ini bagus, tidak ada yang baru, karena kami hanya menerapkan SVM linear normal ke ruang yang berbeda. Namun, bagian ajaibnya adalah ini -

Katakanlah ada fungsi sedemikian rupa sehingga . Kemudian, kita dapat mengganti semua produk titik di atas dengan . Seperti disebut fungsi kernel. $k:\mathcal{X}\times\mathcal{X}\rightarrow \mathbb{R}$ $k(x_i, x_j) = \langle \Phi(x_i), \Phi(x_j) \rangle$ $k(x_i, x_j)$ $k$

Karenanya, dan terlihat seperti, $w^*$ $b^*$

⟨ w^{*}, Φ (x) ⟩ = \sum_{i \in S V} h_{i} y_{i} k (x_{i}, x)

$\langle w^*, \Phi(x) \rangle = \sum_{i \in SV} h_i y_i k(x_i, x)$

b^{*} = \frac{1}{| S V |} \sum_{i \in S V} (y_{i} - \sum_{j = 1}^{N} (h_{j} y_{j} k (x_{j}, x_{i})))

$b^*=\frac{1}{|SV|}\sum_{i \in SV}\left(y_i - \sum_{j=1}^N\left(h_j y_j k(x_j, x_i)\right)\right)$

Untuk fungsi kernel manakah substitusi di atas valid? Nah, itu pertanyaan yang sedikit terlibat dan Anda mungkin ingin mengambil bahan bacaan yang tepat untuk memahami implikasinya. Namun, saya hanya akan menambahkan bahwa hal di atas berlaku untuk RBF Kernel.

Untuk menjawab pertanyaan Anda, "Apakah situasinya sehingga semua vektor dukungan diperlukan untuk klasifikasi?" Iya. Seperti yang Anda perhatikan di atas, kami menghitung produk dalam dengan alih-alih menghitung secara eksplisit. Ini mengharuskan kami untuk mempertahankan semua vektor dukungan untuk klasifikasi. $w$ $x$ $w$

Catatan: The di bagian akhir di sini adalah solusi untuk dua kali dari SVM di ruang dan bukan . Apakah itu berarti bahwa kita perlu tahu berfungsi secara eksplisit? Untungnya, tidak. Jika Anda melihat tujuan ganda, itu hanya terdiri dari produk dalam dan karena kami memiliki yang memungkinkan kami untuk menghitung produk dalam secara langsung, kami tidak perlu mengetahui secara eksplisit. Sasaran ganda hanya terlihat seperti, $h_i$ $\mathcal{F}$ $\mathcal{X}$ $\Phi$ $k$ $\Phi$

max \sum_{i} h_{i} - \sum_{i, j} y_{i} y_{j} h_{i} h_{j} k (x_{i}, x_{j}) subject to : \sum_{i} y_{i} h_{i} = 0, h_{i} \geq 0

$\max \sum_i h_i - \sum_{i,j} y_i y_j h_i h_j k(x_i, x_j) \\ \text{subject to : } \sum_i y_i h_i = 0, h_i \geq 0$

TenaliRaman
sumber

@ JanHadáček Sama-sama! Senang mengetahui bahwa jawaban saya dapat dimengerti, saya khawatir itu mungkin terlalu kental :-)

TenaliRaman

Penjelasan yang sangat bagus

Pria London

Klasifikasi SVM non-linear dengan kernel RBF

Jawaban: