Saya sering melihat orang-orang membicarakan validasi silang 5x2 sebagai kasus khusus validasi silang bersarang .
Saya berasumsi angka pertama (di sini: 5) mengacu pada jumlah lipatan di loop dalam dan nomor kedua (di sini: 2) mengacu pada jumlah lipatan di loop luar? Jadi, bagaimana hal ini berbeda dari pemilihan model dan pendekatan evaluasi "tradisional"? Dengan "tradisional", maksud saya
- pisahkan dataset menjadi pelatihan terpisah (mis., 80%) dan set tes
- gunakan k-fold cross-validation (mis. k = 10) untuk penyetelan hyperparameter dan pemilihan model pada set pelatihan
- mengevaluasi kinerja generalisasi dari model yang dipilih menggunakan set tes
Bukankah 5x2 persis sama kecuali bahwa set tes dan pelatihan memiliki ukuran yang sama jika k = 2?
Jawaban:
5x2cv sejauh yang saya lihat dalam literatur, selalu merujuk pada 5 pengulangan 2 kali lipat. Tidak ada sarang sama sekali. lakukan 2 kali lipat (50/50 split antara kereta dan tes), ulangi 4 kali lagi. 5x2cv dipopulerkan oleh makalah. Perkiraan tes statistik untuk membandingkan algoritma pembelajaran klasifikasi terawasi oleh Dietterich sebagai cara untuk mendapatkan tidak hanya estimasi kesalahan generalisasi yang baik tetapi juga estimasi varians kesalahan yang baik (untuk melakukan tes statistik) )
sumber
2 pengulangan di loop luar berarti Anda mengulangi 5 kali lipat CV Anda 2 kali pada seluruh rangkaian kereta. Setiap pembagian waktu menjadi lipatan akan berbeda.
Ini terutama digunakan untuk estimasi yang lebih baik dari kinerja model, seperti menjalankan uji statistik pada apakah satu model melakukan secara statistik lebih baik secara signifikan daripada yang lain.
Nested CV tidak penting jika set data Anda besar dan tanpa outlier. Jika data Anda memiliki outlier, maka kinerja validasi silang mungkin berbeda secara drastis tergantung pada lipat / lipat apa outlier ini. Oleh karena itu, Anda mengulangi CV beberapa kali.
sumber