Validasi silang cuti keluar: Perkiraan kinerja generalisasi yang relatif tidak bias?

8

Saya telah membaca bahwa validasi silang leave-one-out memberikan perkiraan yang relatif tidak bias tentang kinerja generalisasi yang sebenarnya (misalnya di sini ) dan bahwa ini adalah properti yang menguntungkan dari CV leave-one-out.

Namun, saya tidak melihat bagaimana ini mengikuti dari properti CV cuti satu. Mengapa bias penaksir ini rendah jika dibandingkan dengan yang lain?

Memperbarui:

Saya terus menyelidiki topik, dan saya percaya itu ada hubungannya dengan fakta bahwa penaksir ini kurang pesimis daripada, katakanlah, validasi K-fold, karena menggunakan semua data tetapi satu contoh, tetapi akan lebih baik untuk membaca matematika derivasi ini.

Amelio Vazquez-Reina
sumber
1
Hai Amelio - Saya telah melihat beberapa derivasi matematis dari ini di makalah yang dikutip dalam stats.stackexchange.com/questions/280665/… pertanyaan ini - apakah ada satu khususnya yang ingin Anda lihat?
Xavier Bourret Sicotte

Jawaban:

3

Saya tidak berpikir ada kebutuhan untuk derivasi matematis dari fakta bahwa dalam ML, dengan meningkatnya ukuran tes pelatihan, tingkat kesalahan prediksi menurun. LOO - dibandingkan dengan validasi k-fold - memaksimalkan ukuran set pelatihan, seperti yang telah Anda amati.

Namun, LOO bisa peka terhadap "kembaran" - ketika Anda memiliki sampel berkorelasi tinggi, dengan LOO Anda memiliki jaminan bahwa untuk setiap sampel yang digunakan sebagai set tes, "si kembar" yang tersisa akan berada di set pelatihan. Ini dapat didiagnosis dengan penurunan akurasi yang cepat ketika LOO digantikan oleh, katakanlah, validasi silang 10 kali lipat (atau validasi bertingkat, jika misalnya sampel dipasangkan). Dalam pengalaman saya, ini dapat menyebabkan bencana jika secara umum kumpulan data Anda kecil.

Di dunia yang sempurna, Anda juga memiliki set validasi yang tidak pernah Anda gunakan untuk melatih model Anda, bahkan dalam pengaturan CV. Anda menyimpannya hanya untuk tujuan pengujian kinerja akhir suatu model sebelum Anda mengirim makalah :-)

Januari
sumber