Batas generalisasi pada SVM

11

Saya tertarik pada hasil teoretis untuk kemampuan generalisasi dari Support Vector Machines, misalnya terikat pada probabilitas kesalahan klasifikasi dan pada dimensi Vapnik-Chervonenkis (VC) dari mesin-mesin ini. Namun, membaca literatur saya memiliki kesan bahwa beberapa hasil berulang yang serupa cenderung sedikit berbeda dari penulis ke penulis, terutama mengenai kondisi teknis yang diperlukan untuk suatu ikatan tertentu.

Berikut ini saya akan mengingat struktur masalah SVM dan menyatakan 3 hasil generalisasi utama yang saya temukan berulang kali dalam satu bentuk atau yang lain saya memberikan 3 referensi utama di seluruh eksposisi.

Pengaturan masalah :

Asumsikan kita memiliki sampel data pasangan independen (terdistribusi dan identik) mana untuk semua , dan . Kami membangun mesin vektor dukungan (SVM) yang memaksimalkan margin minimal antara hyperplane pemisah yang ditentukan oleh , dan , dan titik terdekat di antara untuk memisahkan dua kelas yang didefinisikan oleh dan . Kami membiarkan SVM mengakui beberapa kesalahan melalui margin lunak dengan memperkenalkan variabel slack(xi,yi)1inixiRpyi{1,1}m{x:wx+b=0}wRpbRx1,,xny=1y=1ξ1,,ξn tetapi untuk kesederhanaan notasi kita mengabaikan kemungkinan kernel. Parameter solusi dan diperoleh dengan menyelesaikan program optimisasi kuadratik cembung berikut:wb

minw,b,ξ1,,ξn12w2+Ci=1nξis.t.:yi(wxi+b)1ξi,i{1,,n}ξi0,i{1,,n}

Kami tertarik pada kemampuan generalisasi mesin ini.

Vapnik-Chervonenkis dimensi VC :

Hasil pertama adalah karena (Vapnik, 2000), di mana ia mengikat dimensi VC dari hyperplane pemisah, teorema 5.1. Membiarkan, kita punya:R=maxxixi

VCmin((Rm)2,p)+1

Hasil ini lagi dapat ditemukan dalam (Burges, 1998), teorema 6. Namun, tampaknya teorema Burges lebih membatasi daripada hasil yang sama oleh Vapnik, karena ia perlu mendefinisikan kategori pengklasifikasi khusus, yang dikenal sebagai pengklasifikasi toleransi-celah. milik SVM , untuk menyatakan teorema.

Batas kemungkinan kesalahan :

Dalam (Vapnik, 2000), teorema 5.2 di halaman 139 memberikan batasan berikut pada kemampuan generalisasi SVM:

E[Perror]1nE[min(p,nSV,(Rw)2)]

di mana adalah jumlah vektor dukungan dari SVM. Hasil ini tampaknya ditemukan lagi dalam (Burges, 1998), persamaan (86) dan (93) masing-masing. Tetapi sekali lagi, Burges tampaknya berbeda dari Vapnik ketika ia memisahkan komponen dalam fungsi minimum di atas dalam teorema yang berbeda, dengan kondisi yang berbeda.nSV

Hasil lain yang muncul di (Vapnik, 2000), hal.133, adalah sebagai berikut. Dengan asumsi lagi bahwa, untuk semua , dan membiarkan dan , kami mendefinisikan sama dengan:ixi2R2hVCϵ[0,1]ζ

ζ=4h(ln2nh+1)lnϵ4n

Kami juga mendefinisikan sebagai jumlah contoh pelatihan yang salah diklasifikasikan oleh SVM. Kemudian dengan probabilitas kita dapat menyatakan bahwa probabilitas bahwa contoh uji tidak akan dipisahkan dengan benar oleh hyperplane -margin yaitu SVM dengan margin memiliki batas:nerror1ϵmm

Perrornerrorn+ζ2(1+1+4nerrornζ)

Namun, dalam (Hastie, Tibshirani dan Friedman, 2009), hal.438, hasil yang sangat mirip ditemukan:

ErrorTestζ

Kesimpulan :

Tampaknya bagi saya bahwa ada tingkat konflik tertentu antara hasil ini. Di sisi lain, dua referensi ini, meskipun kanonik dalam literatur SVM, mulai sedikit lama (1998 dan 2000), terutama jika kami menganggap bahwa penelitian algoritma SVM dimulai pada pertengahan tahun sembilan puluhan.

Pertanyaan saya adalah:

  • Apakah hasil ini masih valid hari ini, atau sudahkah terbukti salah?
  • Apakah batas yang lebih ketat dengan kondisi yang relatif longgar telah diturunkan sejak saat itu? Jika demikian, oleh siapa dan di mana saya dapat menemukannya?
  • Akhirnya, apakah ada bahan referensi yang mensintesis hasil generalisasi utama tentang SVM?

Referensi :

Burges, JC (1998). "Tutorial tentang Mesin Vektor Pendukung untuk Pengenalan Pola", Penambangan Data dan Penemuan Pengetahuan , 2: 121-167

Hastie, T., Tibshirani, R. dan Friedman, J. (2009). Elemen Pembelajaran Statistik , edisi ke-2, Springer

Vapnik, VN (1998). Teori Belajar Statistik , edisi 1, John Wiley & Sons

Vapnik, VN (1999). "Tinjauan Teori Pembelajaran Statistik", Transaksi IEEE di Jaringan Saraf , 10 (5): 988-999

Vapnik, VN (2000). Sifat Teori Pembelajaran Statistik , edisi ke-2, Springer

Daneel Olivaw
sumber
referensi yang meringkas batas risiko terkini (untuk 2008) untuk SVM: "Support Vector Machines" (Ingo Steinwart, Andreas Christmann, Springer 2008) .
daftar

Jawaban:

3

Saya tidak tahu literatur yang Anda rujuk secara terperinci, tetapi saya pikir ringkasan komprehensif batas generalisasi yang harus diperbarui dapat ditemukan di Boucheron et al. (2004) (Link: https://www.researchgate.net/profile/Olivier_Bousquet/publication/238718428_Advanced_Lectures_on_Machine_Learning_ML_Summer_Schools_2003_Canberra_Australia_February_2-14_2003_Tubingen_Germany_August_4-16_2003_Revised_Lectures/links/02e7e52c5870850311000000/Advanced-Lectures-on-Machine-Learning-ML-Summer-Schools-2003- Canberra-Australia-Februari-2-14-2003-Tuebingen-Jerman-Agustus-4-16-2003-Direvisi-Lectures.pdf # page = 176 )

Saya akan membuat sketsa bagian dari SVM terikat di berikut ini, meninggalkan detail dan membuktikan.

Sebelum menguraikan secara spesifik tentang SVM terikat, kita perlu memahami apa yang berusaha dicapai batas generalisasi.

Pertama mari kita asumsikan bahwa probabilitas sebenarnya diketahui maka classifier terbaik yang mungkin adalah bayes classifier, yaitu P(Y=+1|X=x)

g={+1  ifP(Y=1|X=x)>0.51  otherwise

Tujuan teori pembelajaran statistik sekarang adalah untuk menemukan perbedaan antara classifier kelas (misalnya SVM) dan bayes classifier, yaitu Perhatikan bahwa adalah diharapkan hilangnya diberikan data dan adalah mungkin classifier terbaik di kelas model . Istilah disebut kesalahan estimasi dan seringkali fokus karena dapat dibatasi jauh lebih mudah daripada kesalahan perkiraan (istilah lainnya). Saya juga akan menghilangkan kesalahan aproksimasi di sini.C

g^n=argmingCLn(g)
L(g^n)L(g)=L(g^n)L(gc)+L(gc)L(g).
L(g)=El(g(X),Y)gcCZ=:L(g)L(g^n)

Kesalahan estimasi dapat didekomposisi lebih lanjut dengan Sekarang ini dapat dibatasi oleh dua langkah:Z

Z=ZEZ+EZ.
  1. Bound menggunakan ketidaksetaraan McDiarmidZEZ

  2. Terikat dengan kompleksitas RademacherEZRn(C)=EsupgC|1/ni=1nl(g(Xi),Yi)|

Menggunakan ketidaksetaraan McDiarmids orang dapat menunjukkan bahwa jika fungsi kerugian berkisar dalam interval tidak lebih dari , langkah satu menghasilkan batas mana adalah tingkat kepercayaan. Untuk langkah kedua kita dapat menunjukkan bahwa Jika Anda memiliki fungsi kerugian terpisah, yaitu non-Lipschitz seperti 0-1 -loss, kamu perlu VC-Dimension untuk lebih jauh mengikat Kompleksitas Rademacher. Namun, untuk fungsi L-lipschitz seperti Hinge-loss, ini dapat dibatasi oleh manaB

ZEZ2Bln(1/δ)2n,
δ
EZ2Rn(C),
Rn(C)λLR/n,

λmenunjukkan regulator. Karena untuk Hinge-Loss dan (buktikan dengan ketidakmerataan Gauchy-Schwartz) ini semakin menyederhanakan. Akhirnya dengan menyatukan semua hasil, kita dapat terikat dengan L=1B=1+λR
L(g^n)L(gc)2(1+λR)ln(1/δ)2n+4λLR/n
dkoehn
sumber