Jika saya memiliki data, dan saya menjalankan klasifikasi (katakanlah hutan acak pada data ini) dengan validasi silang (katakanlah 5 kali lipat), dapatkah saya menyimpulkan bahwa tidak ada kelebihan dalam metode saya?
sumber
Jika saya memiliki data, dan saya menjalankan klasifikasi (katakanlah hutan acak pada data ini) dengan validasi silang (katakanlah 5 kali lipat), dapatkah saya menyimpulkan bahwa tidak ada kelebihan dalam metode saya?
Tidak semuanya. Namun, validasi silang membantu Anda menilai seberapa banyak metode Anda cocok.
Misalnya, jika data pelatihan Anda R-kuadrat dari regresi adalah 0,50 dan r-kuadrat-crossvalidated adalah 0,48, Anda hampir tidak memiliki overfitting dan Anda merasa baik. Di sisi lain, jika R-kuadrat crossvalidated hanya 0,3 di sini, maka sebagian besar kinerja model Anda datang karena overfitting dan bukan dari hubungan yang sebenarnya. Dalam kasus seperti itu Anda dapat menerima kinerja yang lebih rendah atau mencoba strategi pemodelan yang berbeda dengan overfitting yang lebih sedikit.
Validasi Silang adalah teknik yang baik, tetapi tidak sempurna, untuk meminimalkan pemasangan berlebihan.
Validasi Silang tidak akan berfungsi dengan baik untuk data luar jika data yang Anda miliki tidak mewakili data yang akan Anda coba prediksi!
Berikut adalah dua situasi konkret ketika validasi silang memiliki kelemahan:
sumber
Saya juga dapat merekomendasikan video ini dari kursus Stanford dalam pembelajaran Statistik. Video-video ini berjalan cukup mendalam mengenai cara menggunakan cross-valudation secara efektif.
Validasi Silang dan Bootstrap (14:01)
K-fold Cross-Validation (13:33)
Validasi Lintas: Cara yang Benar dan Salah (10:07)
sumber