Regresi Proses Gaussian untuk set data dimensi tinggi

10

Hanya ingin melihat apakah ada yang punya pengalaman menerapkan Gaussian process regression (GPR) ke set data dimensi tinggi. Saya sedang melihat ke beberapa metode GPR yang jarang (mis. Input pseudo-input GPR yang jarang) untuk melihat apa yang bisa bekerja untuk set data dimensi tinggi di mana pemilihan fitur yang ideal adalah bagian dari proses pemilihan parameter.

Setiap saran pada makalah / kode / atau berbagai metode untuk dicoba pasti dihargai.

Terima kasih.

tomas
sumber
2
Seperti yang dinyatakan, pertanyaan ini cukup samar. Pertanyaan yang mandiri, konkret dan termotivasi dengan baik cenderung menerima perhatian dan jawaban terbaik di sini. (Misalnya, jika Anda memiliki masalah tertentu yang ingin Anda selesaikan, pertimbangkan untuk memberikan detail yang cukup sehingga pembaca dapat memahami apa yang Anda coba lakukan.)
kardinal

Jawaban:

13

Model proses Gaussian umumnya baik-baik saja dengan dataset dimensi tinggi (saya telah menggunakannya dengan data microarray dll). Kuncinya adalah dalam memilih nilai yang baik untuk parameter-hiper (yang secara efektif mengontrol kompleksitas model dengan cara yang sama seperti yang dilakukan regularisasi).

Metode jarang dan metode input semu lebih cocok untuk dataset dengan jumlah sampel yang besar (> kira-kira 4000 untuk komputer saya) daripada sejumlah besar fitur. Jika Anda memiliki komputer yang cukup kuat untuk melakukan dekomposisi Chovesky dari matriks kovarians (n ​​dengan n di mana n adalah jumlah sampel), maka Anda mungkin tidak memerlukan metode ini.

Jika Anda adalah pengguna MATLAB, maka saya akan sangat merekomendasikan kotak alat GPML dan buku karya Rasmussen dan Williams sebagai tempat yang baik untuk memulai.

NAMUN, jika Anda tertarik dalam pemilihan fitur, maka saya akan menghindari dokter. Pendekatan standar untuk pemilihan fitur dengan dokter adalah menggunakan kernel Penentuan Relevansi Otomatis (misalnya covSEard di GPML), dan kemudian mencapai pemilihan fitur dengan menyetel parameter kernel untuk memaksimalkan kemungkinan marginal. Sayangnya itu sangat mungkin berakhir pas-kemungkinan marginal dan berakhir dengan model yang melakukan (mungkin jauh) lebih buruk daripada model dengan fungsi dasar radial bola sederhana (covSEiso di GPML) kovarians.

Fokus penelitian saya saat ini terletak pada pemilihan model yang terlalu pas dan saat ini saya telah menemukan bahwa ini adalah masalah maksimalisasi bukti dalam dokter seperti halnya untuk optimasi lintas-validasi berdasarkan hiper-paraneter dalam model kernel, untuk perincian lihat makalah ini , dan yang ini .

Pemilihan fitur untuk model non-linear sangat rumit. Seringkali Anda mendapatkan kinerja yang lebih baik dengan tetap berpegang pada model linier dan menggunakan pendekatan tipe regularisasi L1 (Lasso / LARS / Jaring elastis dll.) Untuk mencapai metode hutan sparsity atau random.

Dikran Marsupial
sumber
Terima kasih Dikran. Saya sudah mencoba melihat glmnet di R untuk model linier yang teratur. Sayangnya, prediksi saya akhirnya sama saja (saya pikir rata-rata set latihan saya). Model linier tampaknya mengalami kesulitan menarik sinyal di data saya. Itu sebabnya saya telah mencari model non-linear yang dapat menangani banyak fitur / potensi interaksi fitur. Saya cukup yakin itu banyak bertanya. Ada saran di depan itu? Saya tidak punya masalah P >> N. Menggunakan 150 fitur, 1000 contoh.
tomas
Hai Dikran. Itu adalah pertanyaan yang cukup samar yang saya minta di komentar saya maaf tentang itu. Saya mengajukan pertanyaan yang lebih spesifik di papan tulis. Sekali lagi terima kasih atas bantuan Anda. stats.stackexchange.com/questions/30411/...
tomas
tidak masalah, sering kali mengerjakan apa pertanyaannya lebih sulit daripada menjawabnya! Saya akan mencari pertanyaan lain.
Dikran Marsupial
Terima kasih atas jawaban ini. Dalam hal fitur dimensi tinggi tetapi tidak begitu besar dataset (n ~ 10k d ~ 1k), apakah mungkin menggunakan ARD untuk mempercepat perhitungan? Saya menggunakan kotak alat GPML. Bisakah kita secara otomatis "menyebarkan" matriks kovarian untuk fokus pada fitur yang relevan?
Emile
1
tautan " r.csail.mit.edu/papers/v8/cawley07a.html " tidak berfungsi ... Apakah ini yang ini? jmlr.org/papers/v8/cawley07a.html . Mungkin menambahkan kutipan lengkap dan bukan hanya tautan akan bermanfaat :-)
Curious
4

30

100200

Alexey Zaytsev
sumber