Dalam Elemen Pembelajaran Statistik , saya menemukan pernyataan berikut:
Ada satu kualifikasi: langkah penyaringan awal tanpa pengawasan dapat dilakukan sebelum sampel ditinggalkan. Sebagai contoh, kita dapat memilih 1000 prediktor dengan varians tertinggi di seluruh 50 sampel, sebelum memulai validasi silang. Karena penyaringan ini tidak melibatkan label kelas, itu tidak memberikan prediktor keuntungan yang tidak adil.
Apakah ini benar-benar valid? Maksud saya, dengan memfilter atribut sebelumnya, kita tidak meniru data pelatihan / lingkungan data baru - jadi apakah masalah ini bahwa penyaringan yang kita lakukan tidak diawasi? Bukankah lebih baik untuk benar-benar melakukan semua langkah preprocessing dalam proses cross-validasi? Jika bukan itu masalahnya, maka itu berarti semua preprocessing yang tidak diawasi dapat dilakukan sebelumnya, termasuk normalisasi fitur / PCA, dll. Tetapi dengan melakukan ini pada seluruh rangkaian pelatihan, kami sebenarnya membocorkan beberapa data ke set pelatihan. Saya bisa setuju bahwa dengan dataset yang relatif stabil, perbedaan-perbedaan ini kemungkinan besar akan sangat kecil - tetapi itu tidak berarti mereka tidak ada, kan? Apa cara yang benar untuk memikirkan hal ini?
Saya mohon berbeda dalam pertanyaan ini dengan pendapat @ AmiTavory dan juga dengan Elemen Pembelajaran Statistik.
Berasal dari bidang terapan dengan ukuran sampel sangat rendah, saya memiliki pengalaman yang juga langkah-langkah pra-pemrosesan tanpa pengawasan dapat menimbulkan bias yang parah.
Di bidang saya yang akan paling sering PCA untuk pengurangan dimensi sebelum classifier dilatih. Meskipun saya tidak dapat menampilkan data di sini, saya telah melihat PCA + (cross validated LDA) vs cross validated (PCA + LDA) meremehkan tingkat kesalahan sekitar urutan besarnya . (Ini biasanya merupakan indikator bahwa PCA tidak stabil.)
Adapun argumentasi "keuntungan tidak adil" dari Elemen, jika varians dari kasus uji + diuji, kami berakhir dengan fitur yang bekerja dengan baik dengan pelatihan dan kasus uji. Jadi, kami menciptakan ramalan yang terpenuhi dengan sendirinya di sini yang merupakan penyebab dari bias yang terlalu optimistis. Bias ini rendah jika Anda memiliki ukuran sampel yang cukup nyaman.
Jadi saya merekomendasikan pendekatan yang sedikit lebih konservatif daripada Elemen:
Yang sedang berkata, juga cross valiation hanyalah jalan pintas untuk melakukan studi validasi yang tepat. Dengan demikian, Anda dapat berdebat dengan kepraktisan:
Anda dapat memeriksa apakah pra-pemrosesan dalam pertanyaan menghasilkan hasil yang stabil (Anda dapat melakukannya misalnya dengan validasi silang). Jika Anda merasa sudah sangat stabil dengan ukuran sampel yang lebih rendah, IMHO Anda mungkin berpendapat bahwa tidak banyak bias akan diperkenalkan dengan menariknya keluar dari validasi silang.
Namun, mengutip pengawas sebelumnya: Waktu perhitungan bukanlah argumen ilmiah.
Saya sering pergi untuk "menyelinap pratinjau" beberapa lipatan dan beberapa iterasi untuk validasi silang untuk memastikan semua kode (termasuk ringkasan / grafik hasil) dan kemudian meninggalkannya pada malam hari atau akhir pekan atau lebih di server untuk lebih validasi silang berbutir halus.
sumber