Apakah data normalisasi (memiliki nol rata-rata dan standar deviasi kesatuan) sebelum melakukan validasi silang k-fold berulang-ulang memiliki konsekuensi negatif seperti overfitting?
Catatan: ini untuk situasi di mana #cases> total #features
Saya mengubah beberapa data saya menggunakan transformasi log, kemudian menormalkan semua data seperti di atas. Saya kemudian melakukan pemilihan fitur. Selanjutnya saya menerapkan fitur yang dipilih dan data yang dinormalisasi ke cross-validasi 10 kali lipat untuk mencoba dan memperkirakan kinerja classifier umum dan khawatir bahwa menggunakan semua data untuk menormalkan mungkin tidak tepat. Haruskah saya menormalkan data tes untuk setiap lipatan menggunakan data normalisasi yang diperoleh dari data pelatihan untuk lipatan itu?
Pendapat apa pun diterima dengan penuh syukur! Mohon maaf jika pertanyaan ini tampak jelas.
Sunting: Pada pengujian ini (sesuai dengan saran di bawah) saya menemukan bahwa normalisasi sebelum CV tidak membuat banyak perbedaan kinerja-bijaksana bila dibandingkan dengan normalisasi dalam CV.
sumber
Validasi silang paling baik dilihat sebagai metode untuk memperkirakan kinerja prosedur statistik, daripada model statistik. Dengan demikian untuk mendapatkan perkiraan kinerja yang tidak bias, Anda perlu mengulangi setiap elemen dari prosedur itu secara terpisah di setiap lipatan validasi silang, yang akan mencakup normalisasi. Jadi saya akan mengatakan normal di setiap lipatan.
Satu-satunya waktu ini tidak diperlukan adalah jika prosedur statistik benar-benar tidak sensitif terhadap penskalaan dan nilai rata-rata data.
sumber
Saya pikir jika normalisasi hanya melibatkan dua parameter dan Anda memiliki sampel ukuran yang baik yang tidak akan menjadi masalah. Saya akan lebih peduli tentang transformasi dan proses pemilihan variabel. 10 kali lipat validasi silang tampaknya menjadi hal yang populer saat ini. Tidak adakah yang menggunakan bootstrap 632 atau 632+ untuk estimasi tingkat kesalahan pengklasifikasi seperti yang disarankan pertama kali oleh Efron (1983) di JASA dan ditindaklanjuti kemudian dalam sebuah makalah oleh Efron dan Tibshirani dengan 632+?
sumber
Saya pribadi suka metode .632. Yang pada dasarnya meningkatkan dengan penggantian. Jika Anda melakukannya dan menghapus duplikat Anda akan mendapatkan 632 entri dari set input 1000. Jenis rapi.
sumber