Sudah diketahui umum bahwa untuk kelas konsep dengan VC dimensi , cukup untuk mendapatkan O \ kiri (\ frac {d} {\ varepsilon} \ log \ frac {1} {\ varepsilon} \ kanan) contoh berlabel untuk PAC learn \ mathcal {C} . Tidak jelas bagi saya apakah algoritma pembelajaran PAC (yang menggunakan banyak sampel ini) tepat atau tidak tepat? Dalam buku teks Kearns dan Vazirani serta Anthony dan Biggs sepertinya algoritma pembelajaran PAC tidak tepat (yaitu, hipotesis output tidak terletak pada \ mathcal {C} ) d O ( dCC
Bisakah seseorang mengklarifikasi jika batas atas yang sama berlaku untuk pengaturan pembelajaran PAC yang tepat juga? Jika demikian, dapatkah Anda memberi saya referensi di mana ini disebutkan secara eksplisit dan juga berisi bukti yang lengkap?
Baru-baru ini Hanneke memperbaiki ikatan ini dengan menyingkirkan faktor . Bisakah seseorang mengklarifikasi jika diketahui dapat dilepas untuk pengaturan pembelajaran PAC yang Tepat? Atau masih merupakan pertanyaan terbuka?log ( 1 / ε )
Jawaban:
Terima kasih saya kepada Aryeh karena membawa pertanyaan ini menjadi perhatian saya.
Seperti yang telah disebutkan orang lain, jawaban untuk (1) adalah Ya , dan metode sederhana Minimisasi Risiko Empiris di mencapai kompleksitas sampel ( lihat Vapnik dan Chervonenkis, 1974; Blumer, Ehrenfeucht, Haussler, dan Warmuth, 1989).C Log CO((d/ε)log(1/ε))
Adapun (2), pada kenyataannya diketahui bahwa ada ruangC
mana tidak ada algoritma pembelajaran yang tepat mencapai lebih baik dari kompleksitas sampel Ω((d/ε)log(1/ε)) , dan karenanya pembelajaran yang tepat tidak dapat mencapai O(d/ε) optimal. ( d / ε ) kompleksitas sampel. Sepengetahuan saya, fakta ini tidak pernah benar-benar dipublikasikan, tetapi berakar pada argumen terkait Daniely dan Shalev-Shwartz (COLT 2014) (awalnya dirumuskan untuk pertanyaan yang berbeda, tetapi terkait, dalam pembelajaran multikelas).
Pertimbangkan kasus sederhanad=1 , dan menempatkan ruang X sebagai { 1 , 2 , . . . , 1 / ε } , dan C adalah lajang fz( x ) : = I [ x = z] , z∈ X : yaitu, setiap classifier dalam C mengklasifikasikan tepat satu titik dari X sebagai 1 dan yang lainnya sebagai 0 . Untuk batas bawah, ambil fungsi target sebagai singleton acak fx∗ , di mana x∗∼ U n i fo r m ( X) , dan P , distribusi marginal X , seragam pada X∖ { x∗} . Sekarang pelajar tidak pernah melihat contoh berlabel 1 , tetapi harus memilih titik z untuk menebak diberi label 1 (penting, fungsi `` semua nol '' tidak dalam C , Sehingga setiap peserta didik yang tepat harus kira beberapa z ), dan sampai telah melihat setiap titik di X∖ { x∗} memiliki setidaknya 1 / 2 kesempatan menebak salah (yaitu, probabilitas posterior nya fz memiliki z≠ x∗ setidaknya 1 / 2 ). Argumen kolektor kupon menyiratkan akan membutuhkan Ω ( ( 1 / ε ) log( 1 / ε ) ) sampel untuk melihat setiap titik dalam X∖ { x∗} . Jadi ini membuktikan batas bawah Ω ( ( 1 / ε ) log( 1 / ε ) ) untuk semua pelajar yang tepat.
Untuk umumd> 1 , kita mengambil X sebagai { 1 , 2 , . . . , d/ (4ε)} , ambil C sebagai pengklasifikasi sayaSEBUAH untuk set A ⊂ X ukuran tepat d , pilih fungsi target secara acak dari C , dan ambil P lagi sebagai seragam pada titik-titik yang dikelompokkan fungsi target 0 ( jadi pelajar tidak pernah melihat titik berlabel 1 ). Kemudian generalisasi argumen kupon-kolektor menyiratkan kita perlu Ω ( ( d/ ε)log( 1 / ε ) ) sampel untuk melihat setidaknya | X| -2d poin berbeda dari X , dan tanpa melihat ini banyak poin yang berbeda setiap pembelajar yang tepat memiliki setidaknya 1 / 3 kesempatan untuk mendapatkan lebih besar dari d/ 4 dari menebak-nya SEBUAH dari d poin salah dalam nya hipotesis yang dipilih hSEBUAH , artinya tingkat kesalahannya lebih besar dari ε . Jadi dalam hal ini, tidak ada pelajar yang tepat dengan kompleksitas sampel lebih kecil dari Ω ( ( d/ ε)log( 1 / ε ) ) , yang berarti tidak ada pelajar yang tepat yang mencapai kompleksitas sampel optimal O ( d/ ε) .
Perhatikan bahwa hasilnya cukup spesifik untuk ruangC dibangun. Memang ada ruang C mana peserta didik yang tepat dapat mencapai O ( d/ ε) kompleksitas sampel optimal, dan bahkan bahkan ekspresi penuh tepat O ( ( d/ ε)+(1 / ε)log( 1 / δ) ) dari ( Hanneke, 2016a). Beberapa batas atas dan bawah untuk pelajar ERM umum telah dikembangkan di (Hanneke, 2016b), dikuantifikasi dalam hal sifat-sifat ruang C , serta membahas beberapa kasus yang lebih terspesialisasi di mana peserta didik yang tepat terkadang dapat mencapai kompleksitas sampel yang optimal.
Referensi:
Vapnik dan Chervonenkis (1974). Teori Pengenalan Pola. Nauka, Moskow, 1974.
Blumer, Ehrenfeucht, Haussler, dan Warmuth (1989). Dimensi pembelajaran dan dimensi Vapnik-Chervonenkis. Jurnal Asosiasi untuk Mesin Komputer, 36 (4): 929–965.
Daniely dan Shalev-Shwartz (2014). Pembelajar yang Optimal untuk Masalah Multikelas. Dalam Prosiding Konferensi ke-27 tentang Teori Belajar.
Hanneke (2016a). Kompleksitas Sampel Optimal Pembelajaran PAC. Jurnal Penelitian Pembelajaran Mesin, Vol. 17 (38), hlm. 1-15.
Hanneke (2016b). Batas Kesalahan yang Disempurnakan untuk Beberapa Algoritma Pembelajaran. Jurnal Penelitian Pembelajaran Mesin, Vol. 17 (135), hlm. 1-55.
sumber
Pertanyaan Anda (1) dan (2) terkait. Pertama, mari kita bicara tentang pembelajaran PAC yang tepat. Hal ini diketahui bahwa ada PAC peserta didik yang tepat yang mencapai kesalahan sampel nol, namun memerlukan contoh. Untuk bukti sederhana dariketergantunganϵ, pertimbangkan kelas konsep interval[a,b]⊆[0,1] dibawah distribusi seragam. Jika kita memilihinterval konsistenterkecil, kita memang mendapatkan kompleksitas sampelO(1/ϵ). Misalkan, kita memilihinterval konsistenterbesar, dan konsep target adalah interval titik seperti[0,0]Ω ( dϵcatatan1ϵ) ϵ [ a , b ] ⊆ [ 0 , 1 ] O ( 1 / ϵ ) [ 0 , 0 ] . Kemudian argumen pengumpul-kupon sederhana menunjukkan bahwa kecuali kita menerima kurang lebih contoh, kita akan tertipu oleh jarak antara contoh negatif (satu-satunya yang akan kita lihat) - yang memiliki perilaku karakteristik1/[ukuran sampel] di bawah distribusi seragam. Batas bawah yang lebih umum dari tipe ini diberikan dalam1ϵcatatan1ϵ 1 /
P. Auer, R. Ortner. PAC baru terikat untuk kelas konsep persimpangan-tertutup. Pembelajaran Mesin 66 (2-3): 151-163 (2007) http://personal.unileoben.ac.at/rortner/Pubs/PAC-intclosed.pdf
Hal tentang PAC yang tepat adalah bahwa untuk hasil positif dalam kasus abstrak, orang tidak dapat menentukan algoritma di luar ERM, yang mengatakan "menemukan konsep yang konsisten dengan sampel berlabel". Ketika Anda memiliki struktur tambahan, seperti interval, Anda dapat memeriksa dua algoritma ERM yang berbeda, seperti di atas: segmen konsisten minimal vs maksimal. Dan ini memiliki kompleksitas sampel yang berbeda!
Kekuatan PAC yang tidak tepat adalah Anda dapat merancang berbagai skema pemungutan suara (Hanneke adalah hasil seperti itu) - dan struktur tambahan ini memungkinkan Anda membuktikan tingkat perbaikan. (Ceritanya lebih sederhana untuk PAC agnostik, di mana ERM memberi Anda tingkat kasus terburuk terbaik, hingga konstanta.)
Edit. Sekarang terpikir oleh saya bahwa strategi prediksi grafik 1-inklusi D. Haussler, N. Littlestone, Md K. Warmuth. Memprediksi {0,1} -Fungsi pada Poin yang Diambil Secara Acak. Inf. Komputasi. 115 (2): 248-292 (1994) mungkin menjadi kandidat alami untuk pelajar PAC universal tepat.O ( d/ ϵ)
sumber
Untuk menambah jawaban yang saat ini diterima:
Iya. The kompleksitas sampel batas atas berlaku untuk pembelajaran PAC yang tepat juga(walaupun penting untuk dicatat bahwa hal itu mungkin tidak mengarah pada algoritma pembelajaran yang efisien secara komputasi. Yang normal, karena kecualiNP=RPdiketahui bahwa beberapa kelas adalah PAC tidak dapat dipelajari secara efisien, misalnya Teorema 1.3 dalam Kearns — buku Vazirani yang Anda sebutkan). Ini sebenarnya ditampilkan dalam buku Kearns-Vazirani (Teorema 3.3), karenaLada hipotesis finder konsisten dengan kelas hipotesisH=C. Lihat juga [1].
(Catatan kaki 1 di kertas yang sama juga relevan)
[1] A. Blumer, A. Ehrenfeucht, D. Haussler, dan MK Warmuth. Dimensi pembelajaran dan dimensi Vapnik-Chervonenkis. Jurnal ACM, 36 (4): 929–965, 1989.
[2] S. Hanneke. Kompleksitas sampel optimal pembelajaran PAC. J. Mach. Belajar. Res. 17, 1, 1319-1333, 2016.
[3] S. Arunachalam dan R. de Wolf. Kompleksitas sampel kuantum yang optimal dari algoritma pembelajaran. Dalam Prosiding Konferensi Kompleksitas Komputasi ke 32 (CCC), 2017.
sumber