Kita tahu bahwa (lihat, misalnya, Teorema 1 dan 3 dari [1]), secara kasar, dalam kondisi yang sesuai, fungsi yang dapat dihitung secara efisien oleh mesin Turing dalam waktu polinomial ("efisien yang dapat dihitung") dapat diekspresikan oleh jaringan saraf polinomial dengan ukuran yang wajar, dan dengan demikian dapat dipelajari dengan kompleksitas sampel polinomial ("dapat dipelajari") di bawah distribusi input apa pun.
Di sini "dapat dipelajari" hanya menyangkut kompleksitas sampel, terlepas dari kompleksitas komputasi.
Saya bertanya-tanya tentang masalah yang sangat terkait: apakah ada fungsi yang tidak dapat dihitung secara efisien oleh mesin Turing dalam waktu polinomial ("tidak dapat dihitung secara efisien"), tetapi sementara itu, dapat dipelajari dengan kompleksitas sampel polinomial ("dapat dipelajari") di bawah distribusi input apa pun?
- [1] Roi Livni, Shai Shalev-Shwartz, Ohad Shamir, " Tentang Efisiensi Komputasi Pelatihan Jaringan Saraf Tiruan ", 2014
Jawaban:
Saya akan memformalkan varian dari pertanyaan ini di mana "efisiensi" diganti oleh "komputabilitas".
BiarkanCn menjadi kelas konsep semua bahasa L⊆Σ∗
dikenali oleh mesin Turing pada n status atau lebih sedikit. Secara umum, untuk x∈Σ∗ dan f∈Cn , masalah mengevaluasi
f(x) tidak dapat dipastikan.
Namun, anggaplah kita memiliki akses ke oracleA belajar PAC (tepat, dapat direalisasi)
untuk Cn . Yaitu, untuk ϵ,δ>0 , oracle meminta sampel berlabel ukuran
m0(n,ϵ,δ)
sedemikian sehingga, dengan asumsi sampel seperti itu diambil iid dari distribusi yang tidak diketahui D , oracle A menghasilkan hipotesis f ∈ C n
yang, dengan probabilitas setidaknya 1 - δ , memiliki Df^∈Cn 1−δ D Kesalahan-generalisasi tidak lebih dari ϵ . Kami akan menunjukkan bahwa oracle ini tidak dapat dihitung oleh Turing.
Sebenarnya, kita akan menunjukkan bahwa masalah sederhana adalah diputuskan: Salah menentukan, diberi label sampelS , apakah ada sebuah f∈Cn konsisten dengan S . Misalkan (untuk mendapatkan kontradiksi) bahwa K adalah mesin Turing yang memutuskan masalah konsistensi.
Kami membuat konvensi notasi berikut. IdentifikasiΣ∗ dengan N={0,1,2,…} melalui pemesanan leksikografis yang biasa. Untuk x∈{0,1}∗ , kita mengatakan bahwa TM M "S-print"
x jika ia menerima semua string dalam Σ∗
sesuai dengan indeks i st xi=1
dan tidak menerima (mungkin dengan tidak halting) salah satu string yang sesuai dengan indeks xi=0 . Sejak (dengan asumsi)K adalah decidable, berikut bahwa fungsiK~:x↦k , didefinisikan sebagai terkecilk sehingga beberapa TM diCk
S-cetakanx , adalah Turing-dihitung. Lebih lanjut mengikuti bahwa fungsi
g:k↦x , yang memetakank∈N
ke string paling sedikit (secara leksikografis)x∈{0,1}∗
sedemikian rupa sehinggaK~(x)>k , juga dapat dihitung.
Sekarang mendefinisikan TMM sebagai berikut: M S-cetak g(|⟨M⟩|) , di mana
⟨M⟩ adalah pengkodean M ,
|x| menunjukkan panjang string, dan teorema rekursi sedang dipanggil untuk menyatakan keberadaan M seperti itu . Kemudian M memiliki panjang penyandian, ℓ=|⟨M⟩| , dan S-mencetak beberapa string, xM∈{0,1}∗ . Dengan konstruksi, K~(xM)>ℓ , dan dengan demikian xM tidak dapat dicetak S oleh TM mana pun dengan panjang uraian ℓ atau lebih pendek. Namun itu didefinisikan sebagai output S-print dari TM dengan panjang deskripsi ℓ --- sebuah kontradiksi.
sumber