Bagaimana Anda bisa mendeteksi jika proses Gaussian terlalu pas?

11

Saya melatih proses Gaussian dengan kernel ARD dengan banyak parameter dengan memaksimalkan kemungkinan marginal dari data, dan bukannya cross-validasi.

Saya menduga itu terlalu pas. Bagaimana saya bisa menguji kecurigaan ini dalam konteks Bayesian?

nickponline
sumber

Jawaban:

12

Hal paling sederhana untuk dilakukan adalah menyesuaikan proses Gaussian dengan fungsi kovarians setara non-ARD (biasanya RBF) dan membandingkan tingkat kesalahan pengujian. Untuk banyak masalah, fungsi kovarians ARD berkinerja lebih buruk daripada fungsi kovarians non-ARD karena terlalu pas dalam menyetel parameter hiper. Karena kovarians RBF adalah kasus khusus dari kovarians ARD, jika RBF berkinerja lebih baik, itu adalah indikasi kuat bahwa kernel ARD terlalu pas (mulai mengoptimalkan koefisien ARD pada nilai optimal untuk kovarians RBF yang sesuai, ini adalah lebih cepat, dan juga membantu memastikan bahwa masalah dengan kovarians ISPA bukan hanya karena minimum lokal dalam kemungkinan marginal). Ini adalah masalah yang jauh lebih besar daripada yang umumnya dihargai.

Saya telah menulis beberapa makalah tentang ini:

GC Cawley dan NLC Talbot, Mencegah over-fitting selama pemilihan model melalui regularisasi Bayesian dari hyper-parameter, Journal of Machine Learning Research, volume 8, halaman 841-861, April 2007 ( pdf )

dan

GC Cawley dan NLC Talbot, Over-fitting dalam pemilihan model dan bias seleksi selanjutnya dalam evaluasi kinerja, Journal of Machine Learning Research, 2010. Penelitian, vol. 11, hlm. 2079-2107, Juli 2010 ( pdf )

Yang pertama mencakup beberapa percobaan dengan dokter, yang menunjukkan bahwa pemasangan yang terlalu pas dalam pemilihan model juga merupakan masalah bagi dokter dengan pemilihan model berbasis maksimalisasi marginal kemungkinan.

Analisis yang lebih menyeluruh adalah mengevaluasi kesalahan uji GP pada setiap langkah dalam proses mengoptimalkan kemungkinan marginal. Sangat mungkin bahwa Anda akan mendapatkan tanda aula klasik dari over-fitting, di mana kriteria pemilihan model menurun secara monoton, tetapi kesalahan pengujian pada awalnya menurun, tetapi kemudian mulai naik lagi karena kriteria pemilihan model over-dioptimalkan (cf Gambar 2a dalam makalah JMLR 2010).

Dikran Marsupial
sumber
Keren terima kasih - Saya sedang membaca yang pertama sekarang. Sudahkah Anda menemukan cara yang lebih efektif untuk mengatur kembali over-fitting dengan kernel dengan banyak parameter seperti ARD jika istilah kompleksitas model dalam kemungkinan marginal tidak cukup untuk mencegah overfitting?
nickponline
2
Saya menduga hal paling kuat untuk dilakukan adalah meminggirkan parameter-hiper menggunakan metode Markov Chain Monte Carlo. Untuk ukuran dataset yang cenderung digunakan oleh dokter (hingga beberapa ribu pola), saya kira terlalu pas kemungkinan marjinal tidak dapat dihindari. Optimalisasi IMHO adalah akar dari semua kejahatan dalam statistik, setiap kali Anda mengoptimalkan apa pun, Anda berisiko over-fitting. Pendekatan Bayesian jauh lebih baik dalam hal itu, tetapi Anda malah menghadapi risiko kesulitan karena prior salah :-(
Mars Mars Dikial
@DikranMarsupial Apakah ada penelitian terbaru tentang cara menghindari overfitting menggunakan metode Variational GP?
imsrgadich