Saya tertarik pada hasil teoretis untuk kemampuan generalisasi dari Support Vector Machines, misalnya terikat pada probabilitas kesalahan klasifikasi dan pada dimensi Vapnik-Chervonenkis (VC) dari mesin-mesin ini. Namun, membaca literatur saya memiliki kesan bahwa beberapa hasil berulang yang serupa cenderung sedikit berbeda dari penulis ke penulis, terutama mengenai kondisi teknis yang diperlukan untuk suatu ikatan tertentu.
Berikut ini saya akan mengingat struktur masalah SVM dan menyatakan 3 hasil generalisasi utama yang saya temukan berulang kali dalam satu bentuk atau yang lain saya memberikan 3 referensi utama di seluruh eksposisi.
Pengaturan masalah :
Asumsikan kita memiliki sampel data pasangan independen (terdistribusi dan identik) mana untuk semua , dan . Kami membangun mesin vektor dukungan (SVM) yang memaksimalkan margin minimal antara hyperplane pemisah yang ditentukan oleh , dan , dan titik terdekat di antara untuk memisahkan dua kelas yang didefinisikan oleh dan . Kami membiarkan SVM mengakui beberapa kesalahan melalui margin lunak dengan memperkenalkan variabel slack tetapi untuk kesederhanaan notasi kita mengabaikan kemungkinan kernel. Parameter solusi dan diperoleh dengan menyelesaikan program optimisasi kuadratik cembung berikut:
Kami tertarik pada kemampuan generalisasi mesin ini.
Vapnik-Chervonenkis dimensi :
Hasil pertama adalah karena (Vapnik, 2000), di mana ia mengikat dimensi VC dari hyperplane pemisah, teorema 5.1. Membiarkan, kita punya:
Hasil ini lagi dapat ditemukan dalam (Burges, 1998), teorema 6. Namun, tampaknya teorema Burges lebih membatasi daripada hasil yang sama oleh Vapnik, karena ia perlu mendefinisikan kategori pengklasifikasi khusus, yang dikenal sebagai pengklasifikasi toleransi-celah. milik SVM , untuk menyatakan teorema.
Batas kemungkinan kesalahan :
Dalam (Vapnik, 2000), teorema 5.2 di halaman 139 memberikan batasan berikut pada kemampuan generalisasi SVM:
di mana adalah jumlah vektor dukungan dari SVM. Hasil ini tampaknya ditemukan lagi dalam (Burges, 1998), persamaan (86) dan (93) masing-masing. Tetapi sekali lagi, Burges tampaknya berbeda dari Vapnik ketika ia memisahkan komponen dalam fungsi minimum di atas dalam teorema yang berbeda, dengan kondisi yang berbeda.
Hasil lain yang muncul di (Vapnik, 2000), hal.133, adalah sebagai berikut. Dengan asumsi lagi bahwa, untuk semua , dan membiarkan dan , kami mendefinisikan sama dengan:
Kami juga mendefinisikan sebagai jumlah contoh pelatihan yang salah diklasifikasikan oleh SVM. Kemudian dengan probabilitas kita dapat menyatakan bahwa probabilitas bahwa contoh uji tidak akan dipisahkan dengan benar oleh hyperplane -margin yaitu SVM dengan margin memiliki batas:
Namun, dalam (Hastie, Tibshirani dan Friedman, 2009), hal.438, hasil yang sangat mirip ditemukan:
Kesimpulan :
Tampaknya bagi saya bahwa ada tingkat konflik tertentu antara hasil ini. Di sisi lain, dua referensi ini, meskipun kanonik dalam literatur SVM, mulai sedikit lama (1998 dan 2000), terutama jika kami menganggap bahwa penelitian algoritma SVM dimulai pada pertengahan tahun sembilan puluhan.
Pertanyaan saya adalah:
- Apakah hasil ini masih valid hari ini, atau sudahkah terbukti salah?
- Apakah batas yang lebih ketat dengan kondisi yang relatif longgar telah diturunkan sejak saat itu? Jika demikian, oleh siapa dan di mana saya dapat menemukannya?
- Akhirnya, apakah ada bahan referensi yang mensintesis hasil generalisasi utama tentang SVM?
Referensi :
Vapnik, VN (1998). Teori Belajar Statistik , edisi 1, John Wiley & Sons
Vapnik, VN (2000). Sifat Teori Pembelajaran Statistik , edisi ke-2, Springer
sumber
Jawaban:
Saya tidak tahu literatur yang Anda rujuk secara terperinci, tetapi saya pikir ringkasan komprehensif batas generalisasi yang harus diperbarui dapat ditemukan di Boucheron et al. (2004) (Link: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Australia-Februari-2-14-2003-Tuebingen-Jerman-Agustus-4-16-2003-Direvisi-Lectures.pdf # page = 176 )
Saya akan membuat sketsa bagian dari SVM terikat di berikut ini, meninggalkan detail dan membuktikan.
Sebelum menguraikan secara spesifik tentang SVM terikat, kita perlu memahami apa yang berusaha dicapai batas generalisasi.
Pertama mari kita asumsikan bahwa probabilitas sebenarnya diketahui maka classifier terbaik yang mungkin adalah bayes classifier, yaituP(Y=+1|X=x)
Tujuan teori pembelajaran statistik sekarang adalah untuk menemukan perbedaan antara classifier kelas (misalnya SVM) dan bayes classifier, yaitu Perhatikan bahwa adalah diharapkan hilangnya diberikan data dan adalah mungkin classifier terbaik di kelas model . Istilah disebut kesalahan estimasi dan seringkali fokus karena dapat dibatasi jauh lebih mudah daripada kesalahan perkiraan (istilah lainnya). Saya juga akan menghilangkan kesalahan aproksimasi di sini.C
Kesalahan estimasi dapat didekomposisi lebih lanjut dengan Sekarang ini dapat dibatasi oleh dua langkah:Z
Bound menggunakan ketidaksetaraan McDiarmidZ−EZ
Terikat dengan kompleksitas RademacherEZ Rn(C)=Esupg∈C|1/n∑ni=1l(g(Xi),Yi)|
Menggunakan ketidaksetaraan McDiarmids orang dapat menunjukkan bahwa jika fungsi kerugian berkisar dalam interval tidak lebih dari , langkah satu menghasilkan batas mana adalah tingkat kepercayaan. Untuk langkah kedua kita dapat menunjukkan bahwa Jika Anda memiliki fungsi kerugian terpisah, yaitu non-Lipschitz seperti 0-1 -loss, kamu perlu VC-Dimension untuk lebih jauh mengikat Kompleksitas Rademacher. Namun, untuk fungsi L-lipschitz seperti Hinge-loss, ini dapat dibatasi oleh manaB
sumber