Sementara hasil dari set tes pribadi tidak dapat digunakan untuk memperbaiki model lebih lanjut, bukankah pemilihan model dari sejumlah besar model yang dilakukan berdasarkan hasil set tes pribadi? Tidakkah Anda, melalui proses itu sendiri, berakhir overfitting ke set tes pribadi?
Menurut "Pseudo-Matematika dan Charlatanisme Keuangan: Pengaruh Overtest Overfitting pada Out-of-Sample Performance" oleh Bailey et.al. relatif mudah untuk "berpakaian" saat memilih yang terbaik dari sejumlah besar model yang dievaluasi pada dataset yang sama. Apakah itu tidak terjadi dengan papan peringkat pribadi Kaggle?
- Apa justifikasi statistik untuk model dengan kinerja terbaik di papan peringkat pribadi sebagai model yang menggeneralisasi yang terbaik untuk data di luar sampel?
- Apakah perusahaan pada akhirnya menggunakan model yang menang, atau apakah papan peringkat pribadi ada hanya untuk memberikan "aturan main", dan perusahaan sebenarnya lebih tertarik pada wawasan yang muncul dari pembahasan masalah?
Jawaban:
Baik poin yang Anda sajikan adil, namun saya pikir ada masalah yang jauh lebih nyata dengan orang-orang yang overfitting di papan publik .
Ini mungkin terjadi ketika Anda melakukan 100 atau lebih pengiriman, set tes publik pada akhirnya akan kehabisan pilihan hyperparameter Anda dan dengan demikian sesuai. Saya pikir leaderboard pribadi diperlukan dalam hal itu.
sumber