Fungsi yang Tidak Dapat Dihitung Secara Efisien namun Dapat Dipelajari

28

Kita tahu bahwa (lihat, misalnya, Teorema 1 dan 3 dari [1]), secara kasar, dalam kondisi yang sesuai, fungsi yang dapat dihitung secara efisien oleh mesin Turing dalam waktu polinomial ("efisien yang dapat dihitung") dapat diekspresikan oleh jaringan saraf polinomial dengan ukuran yang wajar, dan dengan demikian dapat dipelajari dengan kompleksitas sampel polinomial ("dapat dipelajari") di bawah distribusi input apa pun.

Di sini "dapat dipelajari" hanya menyangkut kompleksitas sampel, terlepas dari kompleksitas komputasi.

Saya bertanya-tanya tentang masalah yang sangat terkait: apakah ada fungsi yang tidak dapat dihitung secara efisien oleh mesin Turing dalam waktu polinomial ("tidak dapat dihitung secara efisien"), tetapi sementara itu, dapat dipelajari dengan kompleksitas sampel polinomial ("dapat dipelajari") di bawah distribusi input apa pun?

Minkov
sumber
4
Saya mengambil masalah dengan "dan dengan demikian dapat dipelajari". Ada fungsi komputasi yang sangat efisien (katakanlah, DFA) yang SANGAT sulit dipelajari, bahkan kira-kira.
Aryeh
3
Ini mungkin melewatkan intinya, tetapi bagaimana dengan kelas (katakanlah) fungsi Boolean -rendah? (Yaitu, lebih atau kurang, fungsi acak dengan masing-masing nilai secara independen1dengan probabilitas2-2n1 ). Untukε>2-2n , PAC-belajar di bawah distribusi seragam adalah sepele (diperlukan 0 sampel, fungsi konstan0adalah hipotesis yang baik), tetapi sepertinya setiap algoritma evaluasi perlu menghabiskan waktu superpolinomial (karena tidak ada struktur untuk fungsi). Saya kemungkinan besar salah paham pertanyaannya. ε>2n0
Clement C.
3
Terminologi Anda agak membingungkan. Ketika kita mengatakan "dipelajari secara efisien," kita biasanya merujuk pada efisiensi komputasi. Hanya mengatakan "bisa dipelajari" sudah cukup untuk menyiratkan efisiensi sampel.
Lev Reyzin
1
@Minkov Untuk PAC belajar, Anda harus belajar sehubungan dengan distribusi apa pun. Kalau tidak, pertanyaannya tidak menarik (seperti yang ditunjukkan Clement).
Lev Reyzin
2
Mengapa orang memilih untuk ditutup? Saya pikir ini adalah pertanyaan yang dalam dan halus!
Aryeh

Jawaban:

11

Saya akan memformalkan varian dari pertanyaan ini di mana "efisiensi" diganti oleh "komputabilitas".

Biarkan Cn menjadi kelas konsep semua bahasa LΣ dikenali oleh mesin Turing pada n status atau lebih sedikit. Secara umum, untuk xΣ dan fCn , masalah mengevaluasi f(x) tidak dapat dipastikan.

Namun, anggaplah kita memiliki akses ke oracle A belajar PAC (tepat, dapat direalisasi) untuk Cn . Yaitu, untuk ϵ,δ>0 , oracle meminta sampel berlabel ukuran m0(n,ϵ,δ) sedemikian sehingga, dengan asumsi sampel seperti itu diambil iid dari distribusi yang tidak diketahui D , oracle A menghasilkan hipotesis fC n yang, dengan probabilitas setidaknya 1 - δ , memiliki Df^Cn1δDKesalahan-generalisasi tidak lebih dari ϵ . Kami akan menunjukkan bahwa oracle ini tidak dapat dihitung oleh Turing.

Sebenarnya, kita akan menunjukkan bahwa masalah sederhana adalah diputuskan: Salah menentukan, diberi label sampel S , apakah ada sebuah fCn konsisten dengan S . Misalkan (untuk mendapatkan kontradiksi) bahwa K adalah mesin Turing yang memutuskan masalah konsistensi.

Kami membuat konvensi notasi berikut. Identifikasi Σ dengan N={0,1,2,} melalui pemesanan leksikografis yang biasa. Untuk x{0,1} , kita mengatakan bahwa TM M "S-print" x jika ia menerima semua string dalam Σ sesuai dengan indeks i st xi=1 dan tidak menerima (mungkin dengan tidak halting) salah satu string yang sesuai dengan indeks xi=0 . Sejak (dengan asumsi)K adalah decidable, berikut bahwa fungsiK~:xk , didefinisikan sebagai terkecilk sehingga beberapa TM diCk S-cetakanx , adalah Turing-dihitung. Lebih lanjut mengikuti bahwa fungsi g:kx , yang memetakankN ke string paling sedikit (secara leksikografis)x{0,1} sedemikian rupa sehinggaK~(x)>k , juga dapat dihitung.

Sekarang mendefinisikan TM M sebagai berikut: M S-cetak g(|M|) , di mana M adalah pengkodean M , |x|menunjukkan panjang string, dan teorema rekursi sedang dipanggil untuk menyatakan keberadaan M seperti itu . Kemudian M memiliki panjang penyandian, =|M|, dan S-mencetak beberapa string, xM{0,1}. Dengan konstruksi, K~(xM)> , dan dengan demikian xM tidak dapat dicetak S oleh TM mana pun dengan panjang uraian atau lebih pendek. Namun itu didefinisikan sebagai output S-print dari TM dengan panjang deskripsi --- sebuah kontradiksi.

Aryeh
sumber
2
Tantangan: konversikan argumen "tak terbatas" saya melalui kemampuan komputibilitas menjadi yang terbatas melalui efisiensi. Saya pikir jawaban untuk pertanyaan @ minkov adalah negatif: Anda tidak dapat secara efisien mempelajari kelas fungsi yang tidak dapat Anda evaluasi secara efisien. Saya pikir ini akan terus menjadi kenyataan jika Anda bergerak melampaui PAC yang tepat atau dapat direalisasikan.
Aryeh