Menggabungkan pengamatan dalam Proses Gaussian

11

Saya menggunakan proses Gaussian (GP) untuk regresi.

Dalam masalah saya, cukup umum untuk dua atau lebih titik data saling berdekatan, relatif dengan panjangnya skala masalah. Juga, pengamatan bisa sangat bising. Untuk mempercepat perhitungan dan meningkatkan presisi pengukuran , tampaknya wajar untuk menggabungkan / mengintegrasikan kelompok titik yang dekat satu sama lain, selama saya peduli dengan prediksi pada skala panjang yang lebih besar.x(1),x(2),

Saya bertanya-tanya apa cara cepat tetapi semi-berprinsip dalam melakukan ini.

Jika dua titik data tumpang tindih dengan sempurna, , dan noise pengamatan (yaitu, kemungkinan) adalah Gaussian, mungkin heteroskedastik tetapi diketahui , cara alami proses tampaknya menggabungkan mereka dalam satu titik data tunggal dengan:x(1)=x(2)

  • x¯x(k) , untuk .k=1,2

  • Nilai yang diamati yang merupakan rata-rata dari nilai yang diamati dibobot dengan presisi relatifnya: .y¯y(1),y(2)y¯=σy2(x(2))σy2(x(1))+σy2(x(2))y(1)+σy2(x(1))σy2(x(1))+σy2(x(2))y(2)

  • Kebisingan yang terkait dengan pengamatan sama dengan: .σy2(x¯)=σy2(x(1))σy2(x(2))σy2(x(1))+σy2(x(2))

Namun, bagaimana saya harus menggabungkan dua poin yang dekat tetapi tidak tumpang tindih?

  • Saya pikir masih harus menjadi rata-rata tertimbang dari dua posisi, sekali lagi menggunakan reliabilitas relatif. Alasannya adalah argumen pusat-massa (yaitu, pikirkan pengamatan yang sangat tepat sebagai setumpuk pengamatan yang kurang tepat).x¯

  • Untuk rumus yang sama seperti di atas.y¯

  • Untuk kebisingan yang terkait dengan pengamatan, saya bertanya-tanya apakah selain rumus di atas saya harus menambahkan istilah koreksi ke kebisingan karena saya memindahkan titik data di sekitar. Pada dasarnya, saya akan mendapatkan peningkatan dalam ketidakpastian yang terkait dengan dan (masing-masing, varian sinyal dan skala panjang fungsi kovarians). Saya tidak yakin dengan bentuk istilah ini, tetapi saya memiliki beberapa ide tentatif tentang bagaimana menghitungnya mengingat fungsi kovarians.σf22

Sebelum melanjutkan, saya bertanya-tanya apakah sudah ada sesuatu di luar sana; dan jika ini tampaknya cara yang masuk akal untuk melanjutkan, atau ada metode cepat yang lebih baik .

Hal terdekat yang bisa saya temukan dalam literatur adalah makalah ini: E. Snelson dan Z. Ghahramani, Sparse Gaussian Processes menggunakan Pseudo-input , NIPS '05; tetapi metode mereka (relatif) terlibat, membutuhkan optimasi untuk menemukan pseudo-input.

Lacerbi
sumber
1
Ngomong-ngomong, saya menghargai bahwa saya bisa menggunakan perkiraan inferensi atau beberapa metode skala besar, tetapi ini adalah poin lain.
lacerbi

Jawaban:

4

Pertanyaan yang bagus dan apa yang Anda sarankan terdengar masuk akal. Namun secara pribadi saya akan melanjutkan secara berbeda agar menjadi efisien. Seperti yang Anda katakan dua titik yang dekat memberikan sedikit informasi tambahan dan karenanya derajat efektif kebebasan model kurang dari jumlah titik data yang diamati. Dalam kasus seperti itu mungkin layak menggunakan metode Nystroms yang dijelaskan dengan baik dalam GPML (bab tentang perkiraan jarang dapat dilihat di http://www.gaussianprocess.org/gpml/ ). Metode ini sangat mudah diimplementasikan dan baru-baru ini terbukti sangat akurat oleh Rudi et al. ( http://arxiv.org/abs/1507.04717 )

j__
sumber
Terima kasih, metode Nystrom tampaknya merupakan pendekatan yang menarik, saya akan memeriksanya. Namun, dalam posting pertama saya, saya lupa menyebutkan bahwa suara dalam pengamatan bisa sangat tinggi (mungkin lebih besar dari sinyal), sehingga rata-rata titik terdekat akan memberikan informasi tambahan.
lacerbi
1
Yah itu sebenarnya bahkan lebih menjadi alasan untuk menggunakan metode Nystroms. Kebisingan tinggi mengurangi derajat kebebasan efektif sehingga jika hanya nilai eigen m pertama menahan sinyal dan sisanya hanya noise maka metode Nystroms akan menjatuhkan semua yang kurang dari m pertama. Saya pikir itu akan sesuai dengan tagihan untuk apa yang Anda cari. Semoga berhasil!
j__
Metode Nystrom adalah apa yang saya sarankan (+1). Hanya dengan menggabungkan poin menjadi satu dapat mengalami masalah dengan memperkirakan kemungkinan marginal model karena dua titik data asli tidak mungkin memiliki efek yang sama dengan satu titik tunggal. Saran saya adalah untuk menjaga dua poin terpisah, tetapi untuk menemukan cara membuat perhitungan lebih murah, yang harus dicapai oleh Nystrom emthod,
Dikran Marsupial
Masalah seperti apa? Jika Anda mempertimbangkan kasus dua titik yang tumpang tindih dengan noise Gaussian, maka metode rata-rata tepat (selama Anda melacak penurunan noise observasi). Saya tidak melihat mengapa argumen yang sama seharusnya tidak bekerja untuk titik-titik yang dekat dengan skala panjang masalah (dengan perkiraan menjadi lebih buruk dengan meningkatnya jarak). Mungkin inilah yang dilakukan metode Nystrom, dengan cara yang lebih berprinsip - saya masih perlu memahami detailnya. Saya ingin membandingkannya dengan metode rata-rata, baik dari segi akurasi dan kecepatan. Terima kasih
lacerbi
1
@ Seeda kita tidak menggunakan nystrom sebagai prasyarat secara efektif daripada conpkexity waktu berkurang biasa, jadi ya.
j__
1

Saya juga telah menyelidiki penggabungan pengamatan saat melakukan regresi Proses Gaussian. Dalam masalah saya, saya hanya punya satu kovariat.

Saya tidak yakin saya setuju bahwa perkiraan Nystrom lebih disukai. Secara khusus, jika perkiraan yang cukup dapat ditemukan berdasarkan pada dataset yang digabungkan, perhitungan bisa lebih cepat daripada ketika seseorang menggunakan pendekatan Nystrom.

Di bawah ini adalah beberapa grafik yang menunjukkan 1000 titik data dan rata-rata GP posterior, rata-rata GP posterior dengan catatan gabungan, dan rata-rata GP posterior menggunakan pendekatan Nystrom. Catatan dikelompokkan berdasarkan ember berukuran sama dari kovariat yang dipesan. Urutan aproksimasi berkaitan dengan jumlah grup saat menggabungkan catatan dan urutan aproksimasi Nystrom. Pendekatan penggabungan dan pendekatan Nystrom keduanya menghasilkan hasil yang identik dengan regresi GP standar ketika ketika urutan aproksimasi sama dengan jumlah poin.

Dalam hal ini, ketika urutan aproksimasi adalah 10, pendekatan penggabungan tampaknya lebih disukai. Ketika urutannya adalah 20, rata-rata dari perkiraan Nystrom secara visual tidak dapat dibedakan dari rata-rata posterior GP yang tepat, meskipun rata-rata berdasarkan pengamatan gabungan mungkin cukup baik. Ketika pesanan 5, keduanya sangat buruk.

masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini

Richard Redding
sumber