Literatur yang baik tentang validasi silang

10

Adakah yang tahu buku / halaman web yang bagus untuk mulai mempelajari teknik validasi silang?

MarkDollar
sumber

Jawaban:

5

Jika validasi silang akan digunakan untuk pemilihan model / fitur, perlu diingat bahwa dimungkinkan untuk menyesuaikan statistik cross-validasi dan berakhir dengan model yang berkinerja buruk, dan statistik validasi silang dioptimalkan dapat menjadi estimasi kinerja yang sangat optimis. Efek dari ini bisa sangat besar. Lihat Ambroise dan McLachlan untuk contohnya dalam pengaturan pemilihan fitur dan Cawley dan Talbot untuk contoh dalam pengaturan pemilihan model.

Dikran Marsupial
sumber
Adalah baik untuk menyebutkannya, tetapi harus dilipatgandakan bahwa itu adalah contoh dari penyalahgunaan CV yang berlebihan, bukan beberapa kelemahan dari metode itu sendiri.
1
memang, bagaimanapun itu adalah cara di mana ia cukup sering disalahgunakan - jadi penting untuk diperhatikan ketika belajar tentang validasi silang! Lebih banyak validasi silang sering merupakan solusi yang baik, yaitu validasi silang bersarang, atau seperti yang dikatakan Stone validasi "lintas ganda". Masalahnya mempengaruhi hampir semua kriteria pemilihan fitur atau model yang dioptimalkan untuk mendapatkan model; tidak ada yang istimewa tentang validasi silang dalam hal ini.
Dikran Marsupial