Saya membaca tentang SVM dan mengetahui bahwa mereka menyelesaikan masalah optimisasi dan ide margin maksimum sangat masuk akal.
Sekarang, menggunakan kernel mereka bahkan dapat menemukan batas pemisahan non-linear yang hebat.
Sejauh ini, saya benar-benar tidak tahu bagaimana SVM (mesin kernel khusus) dan mesin kernel terkait dengan jaringan saraf?
Pertimbangkan komentar oleh Yann Lecun => di sini :
kernel methods were a form of glorified template matching
dan di sini juga :
Sebagai contoh, beberapa orang terpesona oleh metode kernel karena matematika lucu yang menyertainya. Tapi, seperti yang saya katakan di masa lalu, pada akhirnya, mesin kernel adalah jaringan dangkal yang melakukan "pencocokan templat yang dimuliakan". Tidak ada yang salah dengan itu (SVM adalah metode yang hebat), tetapi memiliki keterbatasan yang harus kita sadari.
Jadi pertanyaan saya adalah:
- Bagaimana SVM terkait dengan jaringan saraf? Bagaimana itu jaringan yang dangkal?
- SVM memecahkan masalah optimisasi dengan fungsi objektif yang terdefinisi dengan baik, bagaimana cara melakukan pencocokan templat? Apa template di sini yang cocok dengan input?
Saya kira komentar ini membutuhkan pemahaman menyeluruh tentang ruang dimensi tinggi, jaring saraf dan mesin kernel tapi sejauh ini saya telah mencoba dan tidak dapat memahami logika di baliknya. Tetapi tentu menarik untuk dicatat hubungan antara dua teknik ml yang sangat sangat berbeda.
EDIT: Saya pikir memahami SVM dari perspektif Neural akan bagus. Saya mencari jawaban yang didukung matematika menyeluruh untuk dua pertanyaan di atas, sehingga benar-benar memahami hubungan antara SVM dan Neural Nets, baik dalam kasus SVM linear dan SVM dengan trik kernel.
Jawaban:
SVM adalah jaringan saraf lapis tunggal dengan kehilangan engsel sebagai fungsi kerugian dan aktivasi linier eksklusif. Konsep telah disinggung di utas sebelumnya, seperti ini: NeuralNetwork lapisan tunggal dengan aktivasi RelU sama dengan SVM?
Matriks Gram (Matriks Kernel, jika Anda mau) adalah ukuran kesamaan. Karena SVM memungkinkan solusi yang jarang, prediksi menjadi masalah membandingkan sampel Anda dengan templat, yaitu vektor dukungan.
sumber