Apakah proses Gaussian (regresi) memiliki sifat aproksimasi universal?

10

Dapatkah fungsi kontinu pada [a, b], di mana a dan b adalah bilangan real, diperkirakan atau ditutup secara sewenang-wenang ke fungsi (dalam beberapa norma) oleh Proses Gaussian (Regresi)?

Michael D
sumber
1
Lebih spesifik!
Henry.L
1
Iya! Sebenarnya, itu tergantung pada fungsi kovarians, tetapi bagi sebagian dari mereka memang demikian . Dustin Tran et al. juga membuktikan teorema aproksimasi universal dalam kerangka Bayesian untuk Proses Gaussian Variasional , yang merupakan model yang lebih kompleks karena fungsi melengkung, tetapi sangat terkait erat. Saya akan menulis jawaban jika pertanyaan dibuka kembali. Catatan PS bahwa perkiraan universal, seperti untuk Neural Networks, hanya berlaku atas satu set yang kompak, bukan atas semua . Rp
DeltaIV
3
Pernyataan "perkiraan universal" dalam pertanyaan ini tampaknya memiliki sedikit atau tidak ada hubungannya dengan pernyataan dalam artikel Wikipedia yang direferensikan. Memang, bahkan tidak jelas bagaimana seseorang dapat memperkirakan suatu fungsi dengan suatu proses . Bisakah Anda menguraikan apa yang ingin Anda tanyakan?
whuber
5
@whuber Meskipun teknis mungkin sedikit longgar, saya pikir pertanyaannya pada dasarnya berarti "Untuk fungsi input , apakah ada realisasi GP tertentu yang sewenang-wenang dekat dengan (dalam beberapa norma)?" Atau mungkin, "Ketika kita mengamati banyak titik sampel dari fungsi , dan melakukan inferensi GP standar dengan data itu, apakah fungsi rata-rata posterior yang dipelajari mendekati fungsi sebenarnya (dalam beberapa hal)?" Keduanya tentu saja sifat yang berbeda, tetapi saya akan menganggap mereka cukup dekat untuk dijawab (dan karenanya memberikan suara pembukaan kembali kelima). f f fffff
Dougal
1
Mungkin, Anda ingin membuktikan konvergensi alih-alih perkiraan. Kalau tidak, buktinya sederhana: Anda dapat mengambil fungsi sebagai sebelum mean. Itu tidak lebih dari , tetapi itu berfungsi. x=x
Karel Macek

Jawaban:

16

Sebagai @Dougal catat, ada dua cara berbeda di mana pertanyaan Anda dapat ditafsirkan. Mereka terkait erat, bahkan jika tampaknya tidak demikian.

Interpretasi pertama adalah: misalkan menjadi himpunan bagian kecil dari R d (kekompakan adalah fundamental untuk semua hal berikut !!!), misalkan k ( x , x ) menjadi fungsi kovarians kontinu (atau kernel) yang didefinisikan pada X × X , dan menunjukkan dengan C ( X ) ruang bernorma fungsi kontinu pada X , dilengkapi dengan norma maksimum | | | | . Untuk fungsi apa pun f C ( X ) , dapat fXRdk(x,x)X×XC(X)X||||fC(X)fdidekati dengan toleransi yang telah ditentukan sebelumnya oleh fungsi dalam RKHS (Reproducing Kernel Hilbert Space) yang terkait dengan kϵk ? Anda mungkin bertanya-tanya apa itu RKHS, apa hubungannya semua ini dengan Regresi Proses Gaussian. Sebuah RKHS adalah penutupan ruang vektor yang dibentuk oleh semua terbatas mungkin linear kombinasi dari semua fungsi yang mungkin f y ( x ) = k ( x , y ) di mana yX . Hal ini sangat ketat terkait dengan proses regresi Gaussian, karena mengingat proses Gaussian sebelum G PK(X)fy(x)=k(x,y)yX pada ruang C ( X ) , kemudian ruang (penutupan) dari semua sarana posterior yang mungkin yang dapat dihasilkan oleh Regresi Proses Gaussian persis dengan RKHS. Faktanya, semua sarana posterior yang mungkin berbentukGP(0,k(x,x))C(X)

f(x)=i=1ncik(x,xi)

yaitu, mereka adalah kombinasi linear hingga dari fungsi . Dengan demikian, kami secara efektif menanyakan apakah, mengingat Proses Gaussian sebelumnya G P ( 0 , k ( x , x ) ) pada C ( X ) , untuk setiap fungsi f C ( X ) selalu ada fungsi f fxi(x)=k(x,xi)GP(0,k(x,x))C(X)fC(X)fdalam (penutupan) ruang semua fungsi yang dapat dihasilkan oleh GPR, yang sedekat yang diinginkan dengan .f

Jawabannya, untuk beberapa kernel tertentu (termasuk kernel Squared Exponential klasik, tetapi tidak termasuk kernel polinomial), adalah ya . Hal ini dapat dibuktikan bahwa untuk kernel seperti adalah padat di C ( X ) , yaitu, untuk setiap f C ( X ) dan untuk setiap toleransi ε , ada f * di K ( X ) sehingga | | f - f | | < ϵK(X)C(X)fC(X)ϵfK(X)||ff||<ϵ. Perhatikan asumsi: kompak, f kontinu dan k adalah kernel kontinu yang memiliki properti aproksimasi universal. Lihat di sini untuk bukti lengkap dalam konteks yang lebih umum (dengan demikian rumit).Xfk

Hasil ini jauh lebih kuat daripada yang terlihat pada pandangan pertama. Sekalipun berada dalam ruang (penutupan) sarana posterior yang dapat dihasilkan oleh GPR, kami belum membuktikan bahwa itu adalah rata -rata posterior khusus yang dikembalikan oleh GPR, untuk pelatihan yang cukup besar, di mana tentu saja training set terdiri dari pengamatan berisik dari f pada titik-titik x 1 , ... , x n . Kami bahkan belum membuktikan bahwa rata-rata posterior dikembalikan oleh GPR sama sekali, untuk n ffx1,,xnn! Ini sebenarnya interpretasi kedua yang disarankan oleh @Dougal. Jawaban untuk pertanyaan ini tergantung pada jawaban untuk pertanyaan pertama: jika tidak ada fungsi dalam RKHS yang merupakan "perkiraan yang baik" untuk f , tentu saja kita tidak bisa berharap bahwa rata-rata posterior yang dikembalikan oleh GPR konvergen ke Itu. Namun, ini pertanyaan yang berbeda. Jika Anda ingin memiliki jawaban untuk pertanyaan ini juga, silakan ajukan pertanyaan baru.ff

DeltaIV
sumber