Ketika Anda yang melakukan pekerjaan itu, menyadari apa yang Anda lakukan, Anda mengembangkan perasaan ketika Anda memiliki model yang terlalu pas. Untuk satu hal, Anda dapat melacak tren atau kemunduran di Adjusted R Square model. Anda juga dapat melacak penurunan yang serupa pada nilai p dari koefisien regresi dari variabel utama.
Tetapi, ketika Anda baru saja membaca studi orang lain dan Anda tidak memiliki wawasan mengenai proses pengembangan model internal mereka sendiri bagaimana Anda dapat dengan jelas mendeteksi apakah suatu model terlalu cocok atau tidak.
Jawaban:
Validasi silang dan regularisasi adalah teknik yang cukup umum untuk mencegah overfitting. Untuk pengambilan cepat, saya akan merekomendasikan slide tutorial Andrew Moore tentang penggunaan cross-validation ( mirror ) - memberikan perhatian khusus pada peringatan. Untuk lebih detail, baca bab 3 dan 7 dari EOSL , yang membahas topik dan hal-hal terkait secara mendalam.
sumber
Ketika saya memasang model sendiri, saya biasanya menggunakan kriteria informasi selama proses pemasangan, seperti AIC atau BIC , atau sebagai alternatif tes rasio- kemungkinan untuk model yang sesuai berdasarkan kemungkinan maksimum atau uji-F untuk model yang cocok berdasarkan pada kuadrat terkecil.
Semuanya secara konseptual serupa karena mereka menghukum parameter tambahan. Mereka menetapkan ambang "kekuatan penjelas tambahan" untuk setiap parameter baru yang ditambahkan ke model. Mereka semua adalah bentuk regularisasi .
Untuk model orang lain, saya melihat bagian metode untuk melihat apakah teknik tersebut digunakan dan juga menggunakan aturan praktis, seperti jumlah pengamatan per parameter - jika ada sekitar 5 (atau lebih sedikit) pengamatan per parameter saya mulai bertanya-tanya.
Selalu ingat bahwa suatu variabel tidak perlu "signifikan" dalam suatu model menjadi penting. Saya mungkin perancu dan harus dimasukkan atas dasar itu jika tujuan Anda adalah memperkirakan pengaruh variabel-variabel lain.
sumber
Saya akan menyarankan bahwa ini adalah masalah dengan bagaimana hasilnya dilaporkan. Bukan untuk "mengalahkan drum Bayesian" tetapi mendekati ketidakpastian model dari perspektif Bayesian sebagai masalah inferensi akan sangat membantu di sini. Dan itu tidak harus menjadi perubahan besar juga. Jika laporan itu hanya berisi kemungkinan bahwa model itu benar, ini akan sangat membantu. Ini adalah jumlah yang mudah untuk diperkirakan menggunakan BIC. Hubungi BIC untuk model mth . Maka probabilitas bahwa model m adalah model "benar", mengingat bahwa model M cocok (dan bahwa salah satu model itu benar) diberikan oleh:BICm M
Jadi apa artinya ini kecuali ituλ besar atau M. kecil, probabilitasnya juga kecil. Dari perspektif "over-fitting", ini akan terjadi ketika BIC untuk model yang lebih besar tidak jauh lebih besar dari BIC untuk model yang lebih kecil - istilah yang tidak dapat diabaikan muncul dalam penyebut. Memasukkan formula seleksi mundur untukM. kita mendapatkan:
Sekarang anggaplah kita membalikkan masalahnya. mengatakanp = 50 dan seleksi mundur memberi d=20 variables, what would λ have to be to make the probability of the model greater than some value P0 ? we have
SettingP0=0.9 we get λ>18.28 - so BIC of the winning model has to win by a lot for the model to be certain.
sumber