Ketika mencoba untuk memilih di antara berbagai model atau sejumlah fitur untuk disertakan, katakan prediksi saya dapat memikirkan dua pendekatan.
- Membagi data menjadi pelatihan dan set tes. Lebih baik lagi, gunakan bootstrap atau k-fold cross-validation. Latihlah set latihan setiap kali dan hitung kesalahan dari set tes. Plot test error vs. jumlah parameter. Biasanya, Anda mendapatkan sesuatu seperti ini:
- Hitung kemungkinan model dengan mengintegrasikan nilai-nilai parameter. yaitu, menghitung , dan memplotnya dengan jumlah parameter. Kami kemudian mendapatkan sesuatu seperti ini:
Jadi pertanyaan saya adalah:
- Apakah pendekatan ini cocok untuk menyelesaikan masalah ini (memutuskan berapa banyak parameter untuk dimasukkan dalam model Anda, atau memilih di antara sejumlah model)?
- Apakah mereka setara? Mungkin tidak. Apakah mereka akan memberikan model optimal yang sama di bawah asumsi atau dalam praktik tertentu?
- Selain perbedaan filosofis yang biasa dalam menentukan pengetahuan sebelumnya dalam model Bayesian dll., Apa pro dan kontra dari setiap pendekatan? Yang mana yang akan Anda pilih?
Pembaruan: Saya juga menemukan pertanyaan terkait tentang membandingkan AIC dan BIC. Tampaknya metode 1 saya secara asimptotik setara dengan AIC dan metode 2 secara asimptotik terkait dengan BIC. Tetapi saya juga membaca di sana bahwa BIC setara dengan Leave-One-Out CV. Itu berarti bahwa kesalahan pelatihan minimum dan Bayesian Likelihood maksimum adalah setara di mana LOO CV setara dengan K-fold CV. Sebuah makalah yang mungkin sangat menarik " Sebuah teori asimptotik untuk pemilihan model linear " oleh Jun Shao berkaitan dengan masalah ini.
bayesian
model-selection
cross-validation
feature-selection
highBandWidth
sumber
sumber
Jawaban:
Bisa jadi salah satu, ya. Jika Anda tertarik untuk mendapatkan model yang memprediksi terbaik, dari daftar model yang Anda pertimbangkan, pendekatan pemisahan / validasi silang dapat melakukannya dengan baik. Jika Anda tertarik untuk mengetahui model mana (dalam daftar model putatif Anda) yang benar-benar menghasilkan data Anda, maka pendekatan kedua (mengevaluasi probabilitas posterior model) adalah yang Anda inginkan.
Tidak, mereka tidak secara umum setara. Misalnya, menggunakan AIC (An Information Criterion, oleh Akaike) untuk memilih model 'terbaik' yang sesuai dengan validasi silang, kira-kira. Penggunaan BIC (Kriteria Informasi Bayesian) sesuai dengan menggunakan probabilitas posterior, kira-kira lagi. Ini bukan kriteria yang sama, jadi orang harus mengharapkan mereka mengarah pada pilihan yang berbeda, secara umum. Mereka dapat memberikan jawaban yang sama - kapan pun model yang memprediksi yang terbaik juga terjadi pada kebenaran - tetapi dalam banyak situasi model yang paling cocok sebenarnya adalah yang overfits, yang mengarah pada ketidaksepakatan antara pendekatan.
Apakah mereka setuju dalam praktik? Itu tergantung pada apa yang melibatkan 'latihan' Anda. Cobalah keduanya dan temukan jawabannya.
sumber
Optimalisasi adalah akar dari semua kejahatan dalam statistik! ;Hai)
Setiap kali Anda mencoba untuk memilih model berdasarkan kriteria yang dievaluasi pada sampel data yang terbatas, Anda memperkenalkan risiko kecocokan yang berlebihan pada kriteria pemilihan model dan berakhir dengan model yang lebih buruk daripada yang Anda mulai. Baik validasi silang dan kemungkinan marginal adalah kriteria pemilihan model yang masuk akal, tetapi keduanya bergantung pada sampel data yang terbatas (seperti AIC dan BIC - penalti kompleksitas dapat membantu, tetapi tidak menyelesaikan masalah ini). Saya telah menemukan ini menjadi masalah besar dalam pembelajaran mesin, lihat
Dari sudut pandang Bayesian, lebih baik mengintegrasikan semua pilihan model dan parameter. Jika Anda tidak mengoptimalkan atau memilih apa pun, maka itu menjadi lebih sulit untuk over-fit. Kelemahannya adalah Anda memiliki integral yang sulit, yang seringkali harus diselesaikan dengan MCMC. Jika Anda menginginkan kinerja prediksi terbaik, maka saya akan menyarankan pendekatan Bayesian sepenuhnya; jika Anda ingin memahami data maka memilih model terbaik sering kali sangat membantu. Namun, jika Anda membuat ulang data dan berakhir dengan model yang berbeda setiap kali, itu berarti prosedur pemasangan tidak stabil dan tidak ada model yang dapat diandalkan untuk memahami data.
Perhatikan bahwa satu perbedaan penting antara validasi silang dan bukti adalah bahwa nilai kemungkinan marjinal mengasumsikan bahwa model tidak salah ditentukan (pada dasarnya bentuk dasar dari model sesuai) dan dapat memberikan hasil yang menyesatkan jika memang demikian. Validasi silang tidak membuat asumsi seperti itu, yang berarti sedikit lebih kuat.
sumber