Apa model statistik di belakang algoritma SVM?

Saya telah belajar bahwa, ketika berhadapan dengan data menggunakan pendekatan berbasis model, langkah pertama adalah memodelkan prosedur data sebagai model statistik. Kemudian langkah selanjutnya adalah mengembangkan algoritma inferensi / pembelajaran yang efisien / cepat berdasarkan pada model statistik ini. Jadi saya ingin bertanya model statistik mana yang berada di belakang algoritma support vector machine (SVM)?

machine-learning svm modeling Huy Nguyen
sumber

Jawaban:

Anda sering dapat menulis model yang sesuai dengan fungsi kerugian (di sini saya akan berbicara tentang regresi SVM daripada klasifikasi SVM; itu sangat sederhana)

Sebagai contoh, dalam model linier, jika fungsi kerugian Anda adalah maka meminimalkan yang akan sesuai dengan kemungkinan maksimum untuk $\sum_i g(\varepsilon_i) = \sum_i g(y_i-x_i'\beta)$ $f\propto \exp(-a\,g(\varepsilon))$ . (Di sini saya memiliki kernel linier) $= \exp(-a\,g(y-x'\beta))$

Jika saya ingat benar SVM-regresi memiliki fungsi kerugian seperti ini:

Itu sesuai dengan kepadatan yang seragam di tengah dengan ekor eksponensial (seperti yang kita lihat dengan eksponensial negatifnya, atau kelipatan negatifnya).

Ada 3 parameter keluarga ini: sudut-lokasi (ambang ketidakpekaan relatif) ditambah lokasi dan skala.

Ini kepadatan yang menarik; jika saya ingat benar dari melihat distribusi tertentu beberapa dekade yang lalu, estimator yang baik untuk lokasi untuk itu adalah rata-rata dari dua kuantil yang ditempatkan secara simetris yang sesuai dengan di mana sudut berada (misalnya midhinge akan memberikan perkiraan yang baik untuk MLE untuk satu tertentu pilihan konstan dalam kerugian SVM); penduga yang serupa untuk parameter skala akan didasarkan pada perbedaannya, sedangkan parameter ketiga pada dasarnya sesuai dengan menentukan persentil sudut mana yang berada (ini mungkin dipilih daripada diperkirakan seperti yang sering terjadi untuk SVM).

Jadi setidaknya untuk regresi SVM sepertinya cukup mudah, setidaknya jika kita memilih untuk mendapatkan estimator kita dengan kemungkinan maksimum.

(Jika Anda akan bertanya ... Saya tidak punya referensi untuk koneksi khusus ini ke SVM: Saya baru saja menyelesaikannya sekarang. Sangat sederhana, bagaimanapun, bahwa puluhan orang akan menyelesaikannya sebelum saya jadi tidak diragukan lagi ada yang referensi untuk itu - saya baru saja pernah melihat).

Glen_b -Reinstate Monica
sumber

(Saya menjawab ini sebelumnya di tempat lain tetapi saya menghapusnya dan memindahkannya ke sini ketika saya melihat Anda juga bertanya di sini; kemampuan menulis matematika dan memasukkan gambar jauh lebih baik di sini - dan fungsi pencarian juga lebih baik, sehingga lebih mudah ditemukan di beberapa bulan)

Glen_b -Reinstate Monica

ℓ_{2}

$\ell_2$

Jika OP bertanya tentang SVM, ia mungkin tertarik pada klasifikasi (yang merupakan aplikasi paling umum dari SVM). Dalam hal ini kerugian adalah kerugian engsel yang sedikit berbeda (Anda tidak memiliki bagian yang meningkat). Mengenai model, saya mendengar para akademisi mengatakan di konferensi bahwa SVM diperkenalkan untuk melakukan klasifikasi tanpa harus menggunakan kerangka kerja probabilistik. Mungkin itu sebabnya Anda tidak dapat menemukan referensi. Di sisi lain, Anda dapat dan Anda melakukan penyusunan ulang minimisasi engsel kerugian sebagai minimalisasi risiko empiris - yang berarti ...

DeltaIV

Hanya karena Anda tidak harus memiliki kerangka kerja probabilistik ... tidak berarti apa yang Anda lakukan tidak sesuai dengan kerangka kerja. Seseorang dapat melakukan kuadrat terkecil tanpa mengasumsikan normalitas, tetapi berguna untuk memahami bahwa apa yang dilakukannya dengan baik ... dan ketika Anda tidak berada di dekatnya, itu mungkin jauh lebih baik.

Glen_b -Reinstate Monica

Mungkin icml-2011.org/papers/386_icmlpaper.pdf adalah referensi untuk ini? (Saya baru saja membukanya)

Lyndon White

Saya pikir seseorang sudah menjawab pertanyaan literal Anda, tetapi biarkan saya menjernihkan kebingungan potensial.

Pertanyaan Anda agak mirip dengan yang berikut:

$f(x) = \ldots$

Dengan kata lain, itu pasti memiliki jawaban yang valid (mungkin bahkan yang unik jika Anda memaksakan batasan keteraturan), tapi itu pertanyaan yang agak aneh untuk ditanyakan, karena itu bukan persamaan diferensial yang memunculkan fungsi itu di tempat pertama.
(Di sisi lain, mengingat persamaan diferensial, itu adalah wajar untuk meminta solusinya, karena itu biasanya mengapa Anda menulis persamaan!)

Inilah alasannya: Saya pikir Anda sedang memikirkan model probabilistik / statistik — khususnya, model generatif dan diskriminatif , berdasarkan pada estimasi probabilitas gabungan dan kondisional dari data.

SVM juga tidak. Ini adalah model yang sama sekali berbeda — model yang memintasinya dan berupaya untuk secara langsung memodelkan batas keputusan akhir, kemungkinannya terkutuk.

Karena ini tentang menemukan bentuk batas keputusan, intuisi di baliknya adalah geometris (atau mungkin kita harus mengatakan berbasis optimasi) daripada probabilistik atau statistik.

Mengingat bahwa probabilitas tidak benar-benar dipertimbangkan di mana pun di sepanjang jalan, maka, agak tidak biasa untuk bertanya apa model probabilistik yang sesuai, dan terutama karena seluruh tujuan adalah untuk menghindari harus khawatir tentang probabilitas. Karena itu mengapa Anda tidak melihat orang-orang membicarakannya.

Mehrdad
sumber

Saya pikir Anda mengabaikan nilai model statistik yang mendasari prosedur Anda. Alasan itu berguna adalah bahwa ia memberi tahu Anda apa asumsi di balik suatu metode. Jika Anda mengetahui hal ini, Anda dapat memahami situasi mana yang akan diperjuangkan dan kapan akan berkembang. Anda juga dapat menggeneralisasi dan memperluas svm secara berprinsip jika Anda memiliki model yang mendasarinya.

probabilityislogic

@probabilityislogic: "Saya pikir Anda mengabaikan nilai model statistik yang mendasari prosedur Anda." ... Saya pikir kita berbicara melewati satu sama lain. Yang ingin saya katakan adalah tidak ada model statistik di balik prosedur ini. Saya tidak mengatakan bahwa tidak mungkin menghasilkan yang cocok dengan posteriori, tetapi saya mencoba menjelaskan bahwa itu bukan "di belakang" dengan cara apa pun, tetapi lebih "cocok" setelah fakta . Saya juga tidak mengatakan bahwa melakukan hal seperti itu tidak ada gunanya; Saya setuju dengan Anda bahwa itu bisa berakhir dengan nilai luar biasa. Harap perhatikan perbedaan-perbedaan ini.

Mehrdad

@Mehrdad: Saya tidak mengatakan bahwa tidak mungkin untuk membuat yang cocok dengan posteriori, Urutan di mana bagian-bagian dari apa yang kita sebut svm 'mesin' dirakit (masalah apa yang dirancang oleh manusia yang awalnya mencoba) untuk menyelesaikan) menarik dari sejarah sudut pandang sains. Tetapi untuk semua yang kita tahu mungkin ada manuskrip yang belum dikenal di beberapa perpustakaan yang berisi deskripsi mesin svm dari 200 tahun yang lalu yang menyerang masalah dari sudut Glen_b dieksplorasi. Mungkin gagasan tentang posteriori dan setelah fakta kurang dapat diandalkan dalam sains.

user603

@ user603: Bukan hanya sejarah yang menjadi masalah di sini. Aspek historis hanya setengahnya. Setengah lainnya adalah bagaimana normalnya sebenarnya berasal dari kenyataan. Dimulai sebagai masalah geometri dan berakhir dengan masalah optimisasi. Tidak ada yang mulai dengan model probabilistik dalam derivasi, yang berarti model probabilistik sama sekali tidak "di belakang" hasilnya. Ini seperti mengklaim mekanika Lagrangian "di belakang" F = ma. Mungkin itu bisa mengarah padanya, dan ya itu berguna, tapi tidak, tidak dan tidak pernah menjadi dasar dari itu. Faktanya seluruh tujuan adalah untuk menghindari kemungkinan.

Mehrdad