Algoritma model kueri statistik?

13

Saya mengajukan pertanyaan ini dalam lintas yang divalidasi T&J tetapi tampaknya itu terkait dengan CS lebih dari Statistik.

Bisakah Anda memberi saya contoh algoritma pembelajaran mesin yang belajar dari sifat statistik dataset bukan pengamatan individu itu sendiri yaitu menggunakan model permintaan statistik ?

Deyaa
sumber
1
apa model kueri statistik?
Suresh Venkat
dari Kearns paper portal.acm.org/citation.cfm?doid=293347.293351 : "dalam model ini algoritma pembelajaran dilarang untuk memeriksa contoh individu dari fungsi target yang tidak diketahui, tetapi diberikan akses ke oracle yang memberikan perkiraan probabilitas atas sampel. ruang contoh acak. " maaf jika tidak jelas, saya telah memperbarui pertanyaan saya dengan tautan ke surat kabar
Deyaa

Jawaban:

14

Hampir setiap algoritma yang bekerja dalam model PAC (dengan pengecualian algoritma pembelajaran paritas) dapat dibuat untuk bekerja dalam model SQ. Lihat misalnya makalah ini dari Blum et al. di mana beberapa algoritma populer diterjemahkan ke dalam padanan SQ mereka ( Privasi Praktis: kerangka kerja SuLQ ). Makalah ini pada prinsipnya berkaitan dengan "privasi", tetapi Anda dapat mengabaikannya - itu sebenarnya hanya mengimplementasikan algoritma dengan kueri SQ.

Pembelajaran agnostik, di sisi lain, jauh lebih sulit dalam model SQ: mengesampingkan masalah komputasi (meskipun ini penting), kompleksitas sampel yang diperlukan untuk pembelajaran agnostik kira-kira sama dengan yang diperlukan untuk pembelajaran yang tepat, jika Anda benar-benar memiliki akses ke titik data. Di sisi lain, pembelajaran agnostik menjadi jauh lebih sulit dalam model SQ - Anda biasanya perlu membuat banyak pertanyaan secara superpolynomially, bahkan untuk kelas sesederhana pemisahan monoton. Lihat makalah ini oleh Feldman ( Karakterisasi lengkap pembelajaran kueri statistik dengan aplikasi untuk evolvabilitas ) atau makalah baru-baru ini oleh Gupta et al. ( Secara pribadi melepaskan Konjungsi dan Penghalang Kueri Statistik )

Aaron Roth
sumber
jawaban yang sangat bagus Aaron :) terima kasih banyak :)
Deyaa
7

Model SQ dibuat untuk menganalisis pembelajaran toleransi kebisingan - yaitu suatu algoritma yang bekerja dengan membuat pertanyaan statistik akan bekerja di bawah kebisingan klasifikasi. Seperti kata Aaron, sebagian besar algoritma PAC yang kami miliki ternyata memiliki padanan dalam model SQ. Satu-satunya pengecualian adalah eliminasi Gaussian, yang digunakan dalam pembelajaran paritas (orang bahkan dapat menggunakan aplikasi pintar ituuntuk belajar log (n) loglog (n) ukuran paritas dalam model noise klasifikasi). Kita juga tahu bahwa paritas tidak dapat dipelajari dengan pertanyaan statistik, dan ternyata kelas yang paling menarik seperti pohon keputusan dapat mensimulasikan fungsi paritas. Jadi, dalam pencarian kami untuk mendapatkan algoritma pembelajaran PAC untuk banyak kelas yang menarik (seperti pohon keputusan, DNF, dll.), Kami tahu kami membutuhkan algoritme pembelajaran baru yang pada dasarnya tidak bekerja dalam model kueri statistik.

Lev Reyzin
sumber
Menarik. Apakah Anda memiliki referensi bahwa paritas tidak dapat dipelajari dalam model SQ?
M. Alaggan
1
itu dibuktikan oleh Kearns dalam makalah aslinya yang mendefinisikan model: portal.acm.org/citation.cfm?doid=293347.293351 dan kemudian diperlihatkan lagi oleh Blum et al di mana mereka mendefinisikan dimensi SQ dari portal kelas.acm.org/citation .cfm? id = 195058.195147 . Pada dasarnya, argumennya seperti ini: paritas "berpasangan independen" dengan distribusi seragam, sehingga Anda harus menebak paritas yang benar untuk mempelajari apa pun, dan ada banyak paritas yang mungkin ...
Lev Reyzin
5

Saya ingin sedikit memperjelas tanggapan Harun. Hampir setiap algoritma agnostik (sekali lagi, kecuali untuk apa pun yang menggunakan eliminasi Gaussian) dapat dibuat untuk bekerja dalam model SQ. Secara alami, pembelajaran agnostik lebih sulit daripada pembelajaran non-agnostik, tetapi ini adalah pertanyaan independen.

pengguna5591
sumber
/ϵ2