Saya tahu bahwa melakukan penyetelan hyperparameter di luar validasi silang dapat menyebabkan estimasi bias eksternal yang tinggi, karena dataset yang Anda gunakan untuk mengukur kinerja adalah sama dengan yang Anda gunakan untuk menyetel fitur.
Yang saya pikirkan adalah seberapa buruk masalah ini . Saya bisa mengerti bagaimana itu akan sangat buruk untuk pemilihan fitur, karena ini memberi Anda sejumlah besar parameter untuk disetel. Tetapi bagaimana jika Anda menggunakan sesuatu seperti LASSO (yang hanya memiliki satu parameter, kekuatan regularisasi), atau hutan acak tanpa pemilihan fitur (yang dapat memiliki beberapa parameter tetapi tidak ada yang sedramatis menambahkan / menjatuhkan fitur noise)?
Dalam skenario ini, seberapa optimiskah Anda terhadap perkiraan kesalahan pelatihan?
Saya akan menghargai info apa pun tentang ini - studi kasus, makalah, anecdata, dll. Terima kasih!
EDIT: Untuk memperjelas, saya tidak berbicara tentang memperkirakan kinerja model pada data pelatihan (yaitu, tidak menggunakan validasi silang sama sekali). Dengan "penyetelan hyperparameter di luar cross-validation" Maksud saya menggunakan validasi silang hanya untuk memperkirakan kinerja masing-masing model individual, tetapi tidak termasuk loop validasi silang kedua untuk mengoreksi overfitting dalam prosedur penyetelan hyperparameter (berbeda dari overfitting selama prosedur pelatihan). Lihat misalnya jawabannya di sini .
sumber
Algoritma pembelajaran kompleks apa pun, seperti SVM, jaringan saraf, hutan acak, ... dapat mencapai akurasi pelatihan 100% jika Anda membiarkannya (misalnya melalui lemah / tidak ada regularisasi), dengan hasil generalisasi yang benar-benar mengerikan.
Singkatnya, Anda dapat dengan mudah berakhir dengan pengklasifikasi yang sempurna pada set pelatihan Anda yang sama sekali tidak belajar apa pun yang berguna pada set tes independen. Betapa buruknya itu.
sumber