Saya bertanya-tanya apakah mungkin untuk melatih SVM (katakanlah linear, untuk mempermudah) menggunakan backpropagation?
Saat ini, aku di blok jalan, karena saya hanya bisa berpikir tentang menulis keluaran classifier ini sebagai
Karenanya, ketika kita mencoba dan menghitung "backwards pass" (kesalahan yang diperbanyak) kita mendapatkan karenaturunan darisgn(x)adalah dsgn(x)
Demikian pula, kami menemukan bahwa , yang berarti kami tidak dapat meneruskan informasi apa pun, atau melakukan pembaruan gradien!
Apa yang menyebabkannya?
Jika Anda hanya tertarik pada kasus linier maka regresi logistik (LR) adalah pilihan yang lebih baik, karena keduanya cembung dan analitik (Anda mungkin ingin mengatasinya jika Anda tertarik dengan regularisasi). Tetapi ketika Anda memilih non-linear di situlah bagian yang sulit muncul. Untuk kasus-kasus non linier, tidak ada cara yang masuk akal untuk menjaga hal-hal baik cembung maupun analitik Anda harus mengorbankan salah satu dari keduanya. Dalam jaring saraf Anda mengorbankan cembung dan dalam beberapa video Anda mengorbankan holomorfisme.
sebenarnya tidak ada perbedaan antara LR dan SVM, svms hanya memprediksi di sisi mana dari sebuah titik terletak, LR juga mempertimbangkan seberapa jauh mereka terletak dari batas (pada garis batas-batas sigmoid memberi Anda probabilitas 0,5 dalam hal LR). SVM terpaksa membuat kompromi ini karena untuk kernel nonlinier intuisi jarak dari hyperplane melengkung (varietas aljabar adalah istilah yang lebih baik) tidak sama dengan dalam kasus linier, pada kenyataannya masalah penyelesaian jarak terpendek dari permukaan hyper untuk titik tertentu sangat sulit (lebih sulit daripada SVM itu sendiri), tetapi di sisi lain Vapnik menyadari untuk hanya memprediksi di sisi batas mana suatu titik terletak sangat mudah seperti pada waktu O (1). Ini adalah wawasan sejati di balik SVM, menjadikannya satu-satunya alternatif optimasi cembung yang tersedia dalam teori pembelajaran statistik. Tapi perasaan saya adalah Anda berkorban sedikit terlalu banyak, baik holomorfisme dan sifat probabilistik hilang. Tetapi untuk kasus-kasus tertentu seperti SVM ground-truthing sangat andal dan juga model ilmiah yang sepenuhnya dapat dipalsukan, tidak seperti alternatif non-cembungnya.
Tldr: ya, teorema nilai rata-rata datang untuk menyelamatkan fungsi-fungsi non analitik. Dalam kasus analitik cembung-non, nilai rata-rata teorema berubah menjadi ketidaksetaraan yang menetapkan beberapa kondisi batas pada sub-gradien yang digunakan untuk melakukan sub gradien yang layak.
sumber