Dapatkah fungsi kontinu pada [a, b], di mana a dan b adalah bilangan real, diperkirakan atau ditutup secara sewenang-wenang ke fungsi (dalam beberapa norma) oleh Proses Gaussian (Regresi)?
gaussian-process
approximation
Michael D
sumber
sumber
Jawaban:
Sebagai @Dougal catat, ada dua cara berbeda di mana pertanyaan Anda dapat ditafsirkan. Mereka terkait erat, bahkan jika tampaknya tidak demikian.
Interpretasi pertama adalah: misalkan menjadi himpunan bagian kecil dari R d (kekompakan adalah fundamental untuk semua hal berikut !!!), misalkan k ( x , x ) menjadi fungsi kovarians kontinu (atau kernel) yang didefinisikan pada X × X , dan menunjukkan dengan C ( X ) ruang bernorma fungsi kontinu pada X , dilengkapi dengan norma maksimum | | ⋅ | | ∞ . Untuk fungsi apa pun f ∈ C ( X ) , dapat fX Rd k ( x , x ) X× X C( X) X | | ⋅ | |∞ f∈ C( X) f didekati dengan toleransi yang telah ditentukan sebelumnya oleh fungsi dalam RKHS (Reproducing Kernel Hilbert Space) yang terkait dengan kϵ k ? Anda mungkin bertanya-tanya apa itu RKHS, apa hubungannya semua ini dengan Regresi Proses Gaussian. Sebuah RKHS adalah penutupan ruang vektor yang dibentuk oleh semua terbatas mungkin linear kombinasi dari semua fungsi yang mungkin f y ( x ) = k ( x , y ) di mana y ∈ X . Hal ini sangat ketat terkait dengan proses regresi Gaussian, karena mengingat proses Gaussian sebelum G PK( X) fy( x ) = k ( x , y ) y ∈X pada ruang C ( X ) , kemudian ruang (penutupan) dari semua sarana posterior yang mungkin yang dapat dihasilkan oleh Regresi Proses Gaussian persis dengan RKHS. Faktanya, semua sarana posterior yang mungkin berbentukG P( 0 , k ( x , x ) ) C(X)
yaitu, mereka adalah kombinasi linear hingga dari fungsi . Dengan demikian, kami secara efektif menanyakan apakah, mengingat Proses Gaussian sebelumnya G P ( 0 , k ( x , x ) ) pada C ( X ) , untuk setiap fungsi f ∈ C ( X ) selalu ada fungsi f ∗fxi(x)=k(x,xi) GP(0,k(x,x)) C(X) f∈C(X) f∗ dalam (penutupan) ruang semua fungsi yang dapat dihasilkan oleh GPR, yang sedekat yang diinginkan dengan .f
Jawabannya, untuk beberapa kernel tertentu (termasuk kernel Squared Exponential klasik, tetapi tidak termasuk kernel polinomial), adalah ya . Hal ini dapat dibuktikan bahwa untuk kernel seperti adalah padat di C ( X ) , yaitu, untuk setiap f ∈ C ( X ) dan untuk setiap toleransi ε , ada f * di K ( X ) sehingga | | f - f ∗ | | ∞ < ϵK(X) C(X) f∈C(X) ϵ f∗ K(X) ||f−f∗||∞<ϵ . Perhatikan asumsi: kompak, f kontinu dan k adalah kernel kontinu yang memiliki properti aproksimasi universal. Lihat di sini untuk bukti lengkap dalam konteks yang lebih umum (dengan demikian rumit).X f k
Hasil ini jauh lebih kuat daripada yang terlihat pada pandangan pertama. Sekalipun berada dalam ruang (penutupan) sarana posterior yang dapat dihasilkan oleh GPR, kami belum membuktikan bahwa itu adalah rata -rata posterior khusus yang dikembalikan oleh GPR, untuk pelatihan yang cukup besar, di mana tentu saja training set terdiri dari pengamatan berisik dari f pada titik-titik x 1 , ... , x n . Kami bahkan belum membuktikan bahwa rata-rata posterior dikembalikan oleh GPR sama sekali, untuk n → ∞f∗ f x1,…,xn n→∞ ! Ini sebenarnya interpretasi kedua yang disarankan oleh @Dougal. Jawaban untuk pertanyaan ini tergantung pada jawaban untuk pertanyaan pertama: jika tidak ada fungsi dalam RKHS yang merupakan "perkiraan yang baik" untuk f , tentu saja kita tidak bisa berharap bahwa rata-rata posterior yang dikembalikan oleh GPR konvergen ke Itu. Namun, ini pertanyaan yang berbeda. Jika Anda ingin memiliki jawaban untuk pertanyaan ini juga, silakan ajukan pertanyaan baru.f∗ f
sumber