Saya akan merekomendasikan untuk melihat "7.10.2 Cara yang Salah dan Benar untuk Melakukan Cross-validasi" di http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf .
Penulis memberikan contoh di mana seseorang melakukan hal berikut:
- Saring prediktor: temukan subkelompok prediktor “baik” yang menunjukkan korelasi yang cukup kuat (univariat) dengan label kelas
- Dengan hanya menggunakan subkumpulan prediktor ini, buatlah penggolong multivarian.
- Gunakan cross-validation untuk memperkirakan parameter tuning yang tidak diketahui dan untuk memperkirakan kesalahan prediksi model akhir
Ini terdengar sangat mirip dengan melakukan EDA pada semua (yaitu pelatihan plus tes) data Anda dan menggunakan EDA untuk memilih prediktor "baik".
Para penulis menjelaskan mengapa ini bermasalah: tingkat kesalahan yang divalidasi silang akan sangat rendah, yang mungkin menyesatkan Anda untuk berpikir Anda telah menemukan model yang baik.
Menerapkan EDA pada data uji adalah salah.
Pelatihan adalah proses melihat jawaban yang benar untuk menciptakan model terbaik. Proses ini tidak hanya terbatas pada menjalankan kode pada data pelatihan. Menggunakan informasi dari EDA untuk memutuskan model mana yang akan digunakan, untuk mengubah parameter, dan sebagainya adalah bagian dari proses pelatihan dan karenanya tidak boleh diizinkan mengakses data uji. Jadi jujur pada diri sendiri, gunakan data uji hanya untuk memeriksa kinerja model Anda.
Juga, jika Anda menyadari bahwa model tidak berkinerja baik selama pengujian dan kemudian Anda kembali menyesuaikan model Anda, maka itu juga tidak baik. Alih-alih, bagi data pelatihan Anda menjadi dua. Gunakan satu untuk pelatihan dan lainnya untuk menguji dan mengubah model Anda. Lihat Apa perbedaan antara set tes dan set validasi?
sumber
Setelah paragraf jawaban ini . Lebih lanjut Hastie menjelaskan hal.245 :
sumber
Anda melakukan EDA di seluruh kumpulan data. Misalnya, jika Anda menggunakan validasi silang satu-keluar , bagaimana Anda akan melakukan EDA hanya pada kumpulan data pelatihan ? Dalam hal ini setiap pengamatan adalah pelatihan dan ketidaksepakatan setidaknya sekali.
Jadi, tidak, Anda membentuk pemahaman Anda tentang data pada seluruh sampel. Jika Anda berada dalam pengaturan industri, itu bahkan lebih jelas. Anda diharapkan menunjukkan tren dan deskripsi umum data kepada para pemangku kepentingan di perusahaan, dan Anda melakukannya pada seluruh sampel.
sumber