Saya menggunakan proses Gaussian (GP) untuk regresi.
Dalam masalah saya, cukup umum untuk dua atau lebih titik data saling berdekatan, relatif dengan panjangnya skala masalah. Juga, pengamatan bisa sangat bising. Untuk mempercepat perhitungan dan meningkatkan presisi pengukuran , tampaknya wajar untuk menggabungkan / mengintegrasikan kelompok titik yang dekat satu sama lain, selama saya peduli dengan prediksi pada skala panjang yang lebih besar.
Saya bertanya-tanya apa cara cepat tetapi semi-berprinsip dalam melakukan ini.
Jika dua titik data tumpang tindih dengan sempurna, , dan noise pengamatan (yaitu, kemungkinan) adalah Gaussian, mungkin heteroskedastik tetapi diketahui , cara alami proses tampaknya menggabungkan mereka dalam satu titik data tunggal dengan:
, untuk .
Nilai yang diamati yang merupakan rata-rata dari nilai yang diamati dibobot dengan presisi relatifnya: .
Kebisingan yang terkait dengan pengamatan sama dengan: .
Namun, bagaimana saya harus menggabungkan dua poin yang dekat tetapi tidak tumpang tindih?
Saya pikir masih harus menjadi rata-rata tertimbang dari dua posisi, sekali lagi menggunakan reliabilitas relatif. Alasannya adalah argumen pusat-massa (yaitu, pikirkan pengamatan yang sangat tepat sebagai setumpuk pengamatan yang kurang tepat).
Untuk rumus yang sama seperti di atas.
Untuk kebisingan yang terkait dengan pengamatan, saya bertanya-tanya apakah selain rumus di atas saya harus menambahkan istilah koreksi ke kebisingan karena saya memindahkan titik data di sekitar. Pada dasarnya, saya akan mendapatkan peningkatan dalam ketidakpastian yang terkait dengan dan (masing-masing, varian sinyal dan skala panjang fungsi kovarians). Saya tidak yakin dengan bentuk istilah ini, tetapi saya memiliki beberapa ide tentatif tentang bagaimana menghitungnya mengingat fungsi kovarians.
Sebelum melanjutkan, saya bertanya-tanya apakah sudah ada sesuatu di luar sana; dan jika ini tampaknya cara yang masuk akal untuk melanjutkan, atau ada metode cepat yang lebih baik .
Hal terdekat yang bisa saya temukan dalam literatur adalah makalah ini: E. Snelson dan Z. Ghahramani, Sparse Gaussian Processes menggunakan Pseudo-input , NIPS '05; tetapi metode mereka (relatif) terlibat, membutuhkan optimasi untuk menemukan pseudo-input.
Jawaban:
Pertanyaan yang bagus dan apa yang Anda sarankan terdengar masuk akal. Namun secara pribadi saya akan melanjutkan secara berbeda agar menjadi efisien. Seperti yang Anda katakan dua titik yang dekat memberikan sedikit informasi tambahan dan karenanya derajat efektif kebebasan model kurang dari jumlah titik data yang diamati. Dalam kasus seperti itu mungkin layak menggunakan metode Nystroms yang dijelaskan dengan baik dalam GPML (bab tentang perkiraan jarang dapat dilihat di http://www.gaussianprocess.org/gpml/ ). Metode ini sangat mudah diimplementasikan dan baru-baru ini terbukti sangat akurat oleh Rudi et al. ( http://arxiv.org/abs/1507.04717 )
sumber
Saya juga telah menyelidiki penggabungan pengamatan saat melakukan regresi Proses Gaussian. Dalam masalah saya, saya hanya punya satu kovariat.
Saya tidak yakin saya setuju bahwa perkiraan Nystrom lebih disukai. Secara khusus, jika perkiraan yang cukup dapat ditemukan berdasarkan pada dataset yang digabungkan, perhitungan bisa lebih cepat daripada ketika seseorang menggunakan pendekatan Nystrom.
Di bawah ini adalah beberapa grafik yang menunjukkan 1000 titik data dan rata-rata GP posterior, rata-rata GP posterior dengan catatan gabungan, dan rata-rata GP posterior menggunakan pendekatan Nystrom. Catatan dikelompokkan berdasarkan ember berukuran sama dari kovariat yang dipesan. Urutan aproksimasi berkaitan dengan jumlah grup saat menggabungkan catatan dan urutan aproksimasi Nystrom. Pendekatan penggabungan dan pendekatan Nystrom keduanya menghasilkan hasil yang identik dengan regresi GP standar ketika ketika urutan aproksimasi sama dengan jumlah poin.
Dalam hal ini, ketika urutan aproksimasi adalah 10, pendekatan penggabungan tampaknya lebih disukai. Ketika urutannya adalah 20, rata-rata dari perkiraan Nystrom secara visual tidak dapat dibedakan dari rata-rata posterior GP yang tepat, meskipun rata-rata berdasarkan pengamatan gabungan mungkin cukup baik. Ketika pesanan 5, keduanya sangat buruk.
sumber