Saya membaca buku teks Proses Gaussian untuk Pembelajaran Mesin oleh CE Rasmussen dan CKI Williams dan saya mengalami kesulitan memahami apa arti distribusi dari fungsi . Dalam buku pelajaran, contoh diberikan, bahwa orang harus membayangkan fungsi sebagai vektor yang sangat panjang (pada kenyataannya, itu harus sangat panjang?). Jadi saya membayangkan distribusi fungsi berfungsi sebagai distribusi probabilitas yang digambarkan "di atas" nilai-nilai vektor tersebut. Maka apakah itu suatu kemungkinan bahwa suatu fungsi akan mengambil nilai tertentu ini? Atau apakah itu suatu probabilitas bahwa suatu fungsi akan mengambil nilai yang berada dalam rentang tertentu? Atau apakah distribusi fungsi-fungsi kemungkinan untuk seluruh fungsi?
Kutipan dari buku teks:
Bab 1: Pendahuluan, halaman 2
Proses Gaussian adalah generalisasi dari distribusi probabilitas Gaussian. Sedangkan distribusi probabilitas menggambarkan variabel acak yang merupakan skalar atau vektor (untuk distribusi multivariat), proses stokastik mengatur sifat-sifat fungsi. Mengesampingkan kecanggihan matematis, seseorang dapat dengan mudah menganggap suatu fungsi sebagai vektor yang sangat panjang, setiap entri dalam vektor menentukan nilai fungsi f (x) pada input x tertentu. Ternyata, meskipun ide ini sedikit naif, ternyata sangat mengejutkan apa yang kita butuhkan. Memang, pertanyaan tentang bagaimana kita berurusan secara komputasional dengan objek dimensi tak terbatas ini memiliki resolusi paling menyenangkan yang bisa dibayangkan: jika Anda hanya meminta sifat-sifat fungsi pada jumlah titik yang terbatas,
Bab 2: Regresi, halaman 7
Ada beberapa cara untuk menafsirkan model regresi proses Gaussian (GP). Orang dapat menganggap proses Gaussian sebagai pendefinisian distribusi fungsi , dan inferensi terjadi langsung dalam ruang fungsi, tampilan fungsi-ruang.
Dari pertanyaan awal:
Saya membuat gambar konseptual ini untuk mencoba memvisualisasikan ini untuk diri saya sendiri. Saya tidak yakin apakah penjelasan yang saya buat untuk diri sendiri itu benar.
Setelah pembaruan:
Setelah jawaban Gijs saya memperbarui gambar menjadi lebih konseptual seperti ini:
sumber
Jawaban:
Konsepnya sedikit lebih abstrak daripada distribusi biasa. Masalahnya adalah kita terbiasa dengan konsep distribusi melaluiR , biasanya ditampilkan sebagai garis, dan kemudian memperluasnya ke permukaan R2 , dan seterusnya ke distribusi di atas Rn . Tetapi ruang fungsi tidak dapat direpresentasikan sebagai kuadrat atau garis atau vektor. Ini bukan kejahatan untuk memikirkan seperti itu, seperti yang Anda lakukan, tapi teori yang bekerja di Rn , yang berkaitan dengan jarak, lingkungan dan seperti (ini dikenal sebagai topologi ruang), tidak sama dalam ruang fungsi. Jadi menggambarnya sebagai persegi dapat memberi Anda intuisi yang salah tentang ruang itu.
Anda dapat dengan mudah menganggap ruang fungsi sebagai sekumpulan besar fungsi, mungkin sekumpulan hal jika Anda mau. Distribusi di sini kemudian memberi Anda probabilitas menggambar subset dari hal-hal itu. Distribusi akan mengatakan: probabilitas bahwa pengundian Anda berikutnya (dari suatu fungsi) ada di subset ini, misalnya, 10%. Dalam kasus proses Gaussian pada fungsi dalam dua dimensi, Anda mungkin bertanya, diberi
x
koordinat dan intervaly
-nilai, ini adalah segmen garis vertikal kecil, berapakah probabilitas fungsi (acak) akan melewati garis kecil ini? Itu akan menjadi probabilitas positif. Jadi proses Gaussian menentukan distribusi (probabilitas) di atas ruang fungsi. Dalam contoh ini, subset dari ruang fungsi adalah subset yang melewati segmen garis.sumber
Pertanyaan Anda telah diajukan, dan dijawab dengan indah, di situs SE Matematika:
/math/2297424/extending-a-distribution-over-samples-to-a-distribution-over-functions
Sepertinya Anda tidak terbiasa dengan konsep pengukuran Gaussian pada ruang dimensi tak terbatas , fungsi linier, tindakan pushforward, dll. Jadi saya akan mencoba membuatnya sesederhana mungkin.
Namun, ada juga "trik" sederhana berdasarkan pada teorema ekstensi Kolmogorov , yang pada dasarnya adalah cara proses stokastik diperkenalkan di sebagian besar program probabilitas yang tidak terlalu banyak mengukur-teoritik. Sekarang saya akan sangat lamban dan tidak teliti, dan membatasi diri pada kasus proses Gaussian. Jika Anda menginginkan definisi yang lebih umum, Anda dapat membaca jawaban di atas atau mencari tautan Wikipedia. Teorema ekstensi Kolmogorov, diterapkan pada kasus penggunaan khusus Anda, menyatakan kurang lebih hal-hal berikut:
Teorema yang sebenarnya jauh lebih umum, tetapi saya kira inilah yang Anda cari.
sumber