Hanya ingin melihat apakah ada yang punya pengalaman menerapkan Gaussian process regression (GPR) ke set data dimensi tinggi. Saya sedang melihat ke beberapa metode GPR yang jarang (mis. Input pseudo-input GPR yang jarang) untuk melihat apa yang bisa bekerja untuk set data dimensi tinggi di mana pemilihan fitur yang ideal adalah bagian dari proses pemilihan parameter.
Setiap saran pada makalah / kode / atau berbagai metode untuk dicoba pasti dihargai.
Terima kasih.
Jawaban:
Model proses Gaussian umumnya baik-baik saja dengan dataset dimensi tinggi (saya telah menggunakannya dengan data microarray dll). Kuncinya adalah dalam memilih nilai yang baik untuk parameter-hiper (yang secara efektif mengontrol kompleksitas model dengan cara yang sama seperti yang dilakukan regularisasi).
Metode jarang dan metode input semu lebih cocok untuk dataset dengan jumlah sampel yang besar (> kira-kira 4000 untuk komputer saya) daripada sejumlah besar fitur. Jika Anda memiliki komputer yang cukup kuat untuk melakukan dekomposisi Chovesky dari matriks kovarians (n dengan n di mana n adalah jumlah sampel), maka Anda mungkin tidak memerlukan metode ini.
Jika Anda adalah pengguna MATLAB, maka saya akan sangat merekomendasikan kotak alat GPML dan buku karya Rasmussen dan Williams sebagai tempat yang baik untuk memulai.
NAMUN, jika Anda tertarik dalam pemilihan fitur, maka saya akan menghindari dokter. Pendekatan standar untuk pemilihan fitur dengan dokter adalah menggunakan kernel Penentuan Relevansi Otomatis (misalnya covSEard di GPML), dan kemudian mencapai pemilihan fitur dengan menyetel parameter kernel untuk memaksimalkan kemungkinan marginal. Sayangnya itu sangat mungkin berakhir pas-kemungkinan marginal dan berakhir dengan model yang melakukan (mungkin jauh) lebih buruk daripada model dengan fungsi dasar radial bola sederhana (covSEiso di GPML) kovarians.
Fokus penelitian saya saat ini terletak pada pemilihan model yang terlalu pas dan saat ini saya telah menemukan bahwa ini adalah masalah maksimalisasi bukti dalam dokter seperti halnya untuk optimasi lintas-validasi berdasarkan hiper-paraneter dalam model kernel, untuk perincian lihat makalah ini , dan yang ini .
Pemilihan fitur untuk model non-linear sangat rumit. Seringkali Anda mendapatkan kinerja yang lebih baik dengan tetap berpegang pada model linier dan menggunakan pendekatan tipe regularisasi L1 (Lasso / LARS / Jaring elastis dll.) Untuk mencapai metode hutan sparsity atau random.
sumber
sumber