Bagaimana cara melatih SVM melalui backpropagation?

10

Saya bertanya-tanya apakah mungkin untuk melatih SVM (katakanlah linear, untuk mempermudah) menggunakan backpropagation?

Saat ini, aku di blok jalan, karena saya hanya bisa berpikir tentang menulis keluaran classifier ini sebagai

f (x; θ, b) = sgn (θ \cdot x - (b + 1)) = sgn (g (x; θ, b))

$f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b))$

Karenanya, ketika kita mencoba dan menghitung "backwards pass" (kesalahan yang diperbanyak) kita mendapatkan karenaturunan dari adalah

\begin{aligned} \frac{\partial E}{\partial x} & = \frac{\partial E}{\partial f (x; θ, b)} \frac{\partial f (x; θ, b)}{x} \\ = \frac{\partial E}{\partial f (x; θ, b)} \frac{\partial sgn (g (x; θ, b))}{\partial g (x; θ, b)} \frac{\partial g (x; θ, b)}{\partial x} \\ = δ \frac{d sgn (z)}{d z} θ \\ = δ \cdot 0 \cdot θ \\ = 0 \end{aligned}

$\begin{align} \frac{\partial E}{\partial \mathbf{x}} &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial f(\mathbf{x};\theta,b)}{\mathbf{x}} \\ &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial \text{sgn}(g(\mathbf{x};\theta,b))}{\partial g(\mathbf{x};\theta,b)} \frac{\partial g(\mathbf{x};\theta,b)}{\partial \mathbf{x}} \\ &= \delta \, \frac{d \text{sgn}(z)}{dz} \, \theta \\ &= \delta \cdot 0 \cdot \theta \\ &= \mathbf{0} \end{align}$

sgn (x)

$\text{sgn}(x)$

\frac{d sgn (x)}{d x} = {\begin{cases} 0 & if x \neq 0 \\ 2 δ (x) & if x = 0 \end{cases}

$\frac{d\text{sgn}(x)}{dx} = \begin{cases} 0 &\text{if $x \neq 0$}\\ 2\delta(x) &\text{if $x=0$} \end{cases}$

Demikian pula, kami menemukan bahwa , yang berarti kami tidak dapat meneruskan informasi apa pun, atau melakukan pembaruan gradien! $\partial E/\partial \theta = \partial E /\partial b = 0$

Apa yang menyebabkannya?

machine-learning neural-networks svm gradient-descent backpropagation StevieP
sumber

14

Anda benar bahwa jika Anda mencoba untuk secara langsung mengoptimalkan keakuratan SVM pada kasus pelatihan, juga disebut kerugian 0-1, gradien menghilang. Inilah sebabnya mengapa orang tidak melakukan itu. :)

Apa yang Anda coba lakukan, belum benar - benar SVM; itu agak hanya penggolong linier umum. SVM khususnya muncul ketika Anda mengganti fungsi kerugian 0-1 dengan pengganti cembung yang dikenal sebagai kehilangan engsel ; ini sama dengan gagasan maksimalisasi margin yang merupakan inti dari gagasan SVM. Fungsi kerugian ini (hampir) terdiferensiasi; satu-satunya masalah adalah jika ada output tepat pada titik engsel, yang (a) terjadi dengan probabilitas nol di bawah asumsi paling masuk akal dan (b) maka Anda bisa menggunakan 0 atau 1 sebagai turunan (atau apa pun di antaranya), di yang mana Anda secara teknis melakukan turunan subgradien.

Karena Anda sedang berbicara tentang backpropagation, saya akan menganggap Anda setidaknya sedikit terbiasa dengan mengoptimalkan jaringan saraf. Masalah yang sama terjadi dengan pengklasifikasi jaringan saraf juga; inilah mengapa orang menggunakan fungsi kerugian lain di sana juga.

Dougal
sumber

A x + b

$A \mathbf{x} + b$

1

Ya, SVM linier pada dasarnya setara dengan NN 1-lapisan dengan aktivasi linier pada simpul keluaran dan dilatih melalui kehilangan engsel.

Dougal

5

Jika Anda hanya tertarik pada kasus linier maka regresi logistik (LR) adalah pilihan yang lebih baik, karena keduanya cembung dan analitik (Anda mungkin ingin mengatasinya jika Anda tertarik dengan regularisasi). Tetapi ketika Anda memilih non-linear di situlah bagian yang sulit muncul. Untuk kasus-kasus non linier, tidak ada cara yang masuk akal untuk menjaga hal-hal baik cembung maupun analitik Anda harus mengorbankan salah satu dari keduanya. Dalam jaring saraf Anda mengorbankan cembung dan dalam beberapa video Anda mengorbankan holomorfisme.

sebenarnya tidak ada perbedaan antara LR dan SVM, svms hanya memprediksi di sisi mana dari sebuah titik terletak, LR juga mempertimbangkan seberapa jauh mereka terletak dari batas (pada garis batas-batas sigmoid memberi Anda probabilitas 0,5 dalam hal LR). SVM terpaksa membuat kompromi ini karena untuk kernel nonlinier intuisi jarak dari hyperplane melengkung (varietas aljabar adalah istilah yang lebih baik) tidak sama dengan dalam kasus linier, pada kenyataannya masalah penyelesaian jarak terpendek dari permukaan hyper untuk titik tertentu sangat sulit (lebih sulit daripada SVM itu sendiri), tetapi di sisi lain Vapnik menyadari untuk hanya memprediksi di sisi batas mana suatu titik terletak sangat mudah seperti pada waktu O (1). Ini adalah wawasan sejati di balik SVM, menjadikannya satu-satunya alternatif optimasi cembung yang tersedia dalam teori pembelajaran statistik. Tapi perasaan saya adalah Anda berkorban sedikit terlalu banyak, baik holomorfisme dan sifat probabilistik hilang. Tetapi untuk kasus-kasus tertentu seperti SVM ground-truthing sangat andal dan juga model ilmiah yang sepenuhnya dapat dipalsukan, tidak seperti alternatif non-cembungnya.

Tldr: ya, teorema nilai rata-rata datang untuk menyelamatkan fungsi-fungsi non analitik. Dalam kasus analitik cembung-non, nilai rata-rata teorema berubah menjadi ketidaksetaraan yang menetapkan beberapa kondisi batas pada sub-gradien yang digunakan untuk melakukan sub gradien yang layak.

Franck Dernoncourt
sumber

1

Apa arti LR bagi Anda?

Sycorax berkata Reinstate Monica

@Sycorax regresi logistik

Franck Dernoncourt

Bagaimana cara melatih SVM melalui backpropagation?

Jawaban: