Pembelajaran agnostik atas distribusi yang sewenang-wenang

11

Biarkan menjadi distribusi lebih dari bitstring / pasangan label dan biarkan menjadi kumpulan fungsi bernilai boolean . Untuk setiap fungsi , misalkan: dan biarkan: OPT (C, D) = \ min_ {f \ dalam C} \ err (f, D) Katakan bahwa suatu algoritma A secara agnostik mempelajari C atas distribusi apa pun, jika untuk setiap D ia dapat dengan probabilitas 2/3 menemukan fungsi f sedemikian rupa sehingga err (f, D) \ leq OPT (C, D) + \ epsilon , diberikan waktu dan sejumlah sampel dari DD{0,1}d×{0,1}Cf:{0,1}d{0,1}fC

err(f,D)=Pr(x,y)D[f(x)y]
A C D 2 / 3 f e r r ( f , D ) O P T ( C , D ) + ε D
OPT(C,D)=minfC err(f,D)
ACD2/3ferr(f,D)OPT(C,D)+ϵDyang dibatasi oleh polinomial dalam d dan 1/ϵ .

Pertanyaan: Apa kelas fungsi C yang diketahui dapat dipelajari secara agnostik dari distribusi yang sewenang-wenang?

Tidak ada kelas yang terlalu sederhana! Saya tahu bahwa konjungsi monoton pun tidak diketahui dapat dipelajari secara agnostik melalui distribusi yang sewenang-wenang, jadi saya hanya mencari kelas fungsi nontrivial.

Aaron Roth
sumber
Layak menunjukkan bagi yang belum tahu bahwa pembelajaran agnostik difokuskan pada kasus ketika OPT (C, D)> 0 (yaitu Anda memiliki kelas hipotesis yang salah
Suresh Venkat
Poin bagus. Dalam kasus khusus ketika OPT (C, D) = 0, ini adalah pembelajaran PAC, dan jauh lebih mudah. Untuk pembelajaran agnostik, jaminan harus berlaku tidak peduli apa OPT (C, D).
Aaron Roth
Ada juga kasus "PAC w / Klasifikasi Kebisingan" di mana OPT (C, D)> 0, dan meskipun Anda memiliki kelas hipotesis yang tepat (pengaturan dapat direalisasikan) ada beberapa kesalahan karena label dibalik secara acak karena kebisingan ... Saya Semoga nama pengaturan yang berbeda tidak membingungkan.
Lev Reyzin
yang terdengar seperti pembelajaran agnostik dengan batas atas pada OPT (C, D)
Suresh Venkat
Tidak cukup, karena noise tidak diperbolehkan sembarang dalam model noise klasifikasi. Jadi jika ada beberapa pola kebisingan permusuhan yang membuat pembelajaran (atau menemukan minimizer risiko empiris) sulit dalam model agnostik, itu mungkin tidak sering terjadi dalam model kebisingan klasifikasi (yaitu jatuh ke dalam parameter delta PAC).
Lev Reyzin

Jawaban:

9

Jika tidak ada kelas yang terlalu sederhana, maka di sini ada beberapa kelas yang dapat dipelajari secara agnostik PAC. Menanggapi komentar, kelas-kelas dengan banyak hipotesis secara acak dicoret:

  • pohon keputusan kedalaman konstan (dan kelas lainnya hanya memiliki banyak hipotesis)
  • hiperplanes dalam hipotesis (hanya menghasilkan label berbeda) O ( n 2 )R2O(n2)
  • serikat interval (pemrograman dinamis)
  • paritas pada beberapa dari bit (lihat ini dan ini )nlog(k)loglog(k)n
  • kelas hipotesis lain dalam pengaturan dimensi rendah.

Hampir semua yang lain adalah NP-Hard untuk (setidaknya dengan benar) belajar PAC secara agnostik.

Tutorial Adam Kalai tentang pembelajaran agnostik juga mungkin menarik bagi Anda.

Lev Reyzin
sumber
Terima kasih. Jadi pohon keputusan kedalaman konstan, hyperplanes 2 dimensi, (saya menganggap pengaturan dimensi rendah lain yang Anda maksudkan) semuanya termasuk dalam kategori hanya memiliki banyak fungsi secara polinomi, yang dapat dipelajari dengan kelelahan. Paritas pada log (k) loglog (k) bit dan serikat interval menarik karena mengandung banyak fungsi superpolynomially. Apakah ada yang lain seperti ini?
Aaron Roth
Benar, meskipun ada banyak hiperplanes dalam R ^ 2, hanya O (n ^ 2) yang mengklasifikasikan titik data secara berbeda. Saya tidak tahu kelas menarik lainnya dari atas kepala saya, tetapi jika saya memikirkan / menemukan, saya akan mengedit jawaban saya.
Lev Reyzin
jadi Anda ingin kelas dimensi VC yang tidak terbatas?
Suresh Venkat
Dimensi VC tanpa batas pasti akan menarik, tetapi kelas terbatas (untuk fixed d) sudah sangat menarik (dan tampaknya jarang)
Aaron Roth
1
@LevReyzin Tautan kuliah Kalai tidak berfungsi. Bisakah Anda memperbaiki ini? Saya mencari di internet tetapi tidak bisa menemukan ini juga.
Anirbit