Saya memiliki masalah regresi dengan variabel 5-6k. Saya membagi data saya menjadi 3 set yang tidak tumpang tindih: pelatihan, validasi, dan pengujian. Saya melatih hanya menggunakan set pelatihan, dan menghasilkan banyak model regresi linier yang berbeda dengan memilih serangkaian 200 variabel yang berbeda untuk masing-masing model (saya mencoba sekitar 100k subset seperti itu). Saya menilai model sebagai . Dengan menggunakan kriteria ini, saya akhirnya memilih model. Ternyata model yang dipilih memiliki R ^ 2 yang sangat mirip pada pelatihan dan data validasi. Namun, ketika saya mencoba model ini pada data pengujian, ia memiliki R ^ 2 jauh lebih rendah . Jadi sepertinya saya entah bagaimana overfitting pada data pelatihan dan validasi. Ada ide tentang bagaimana saya bisa mendapatkan model yang lebih kuat?
Saya mencoba meningkatkan ukuran data pelatihan, tetapi itu tidak membantu. Saya berpikir mungkin menyusutkan ukuran setiap subset.
Saya telah mencoba menggunakan regularisasi. Namun, model yang saya peroleh menggunakan laso atau jaring elastis memiliki R ^ 2 yang jauh lebih rendah pada set pelatihan serta set validasi, dibandingkan dengan model yang saya peroleh dengan melakukan pendekatan pemilihan subset. Oleh karena itu, saya tidak mempertimbangkan model-model ini, karena saya berasumsi bahwa jika Model A berkinerja lebih baik daripada Model B di kedua set pelatihan serta set validasi, Model A jelas lebih baik daripada Model B. Saya akan sangat ingin tahu jika Anda tidak setuju dengan ini.
Pada catatan terkait, apakah menurut Anda adalah kriteria yang buruk untuk memilih model saya?
Anda overfitting karena Anda menggunakan
min(training r-square,validation r-square)
data untuk menghasilkan skor, yang pada gilirannya digunakan untuk mendorong pemilihan model. Karena r-square pelatihan Anda cenderung sama atau lebih rendah (Anda hanya menjalankan regresi, setelah semua), ini kira-kira setara dengan melakukan pemilihan model pada r-square dari data pelatihan.Ini memiliki efek pas terlalu ketat pada data pelatihan, dan mengabaikan data validasi.
Jika Anda menggunakan saat itu
validation r-square
maka Anda harus mendapatkan hasil yang lebih baik.sumber