Saya menemukan artikel 2012 ini oleh Gitte Vanwinckelen dan Hendrik Blockeel yang mempertanyakan kegunaan berulang cross-validation, yang telah menjadi teknik populer untuk mengurangi varian cross-validation.
Para penulis menunjukkan bahwa sementara validasi silang berulang mengurangi variasi prediksi model, karena dataset sampel yang sama sedang di-resampling, rata-rata estimasi validasi silang yang di-resvergen akan menyatu dengan estimasi yang bias dari akurasi prediksi yang sebenarnya dan karenanya tidak berguna.
Haruskah validasi silang berulang digunakan meskipun ada keterbatasan ini?
cross-validation
RobertF
sumber
sumber
Jawaban:
Argumen yang membuat makalah itu tampak aneh bagi saya.
Menurut makalah, tujuan CV adalah untuk memperkirakan , kinerja prediksi yang diharapkan dari model pada data baru, mengingat bahwa model dilatih pada dataset S yang diamati . Ketika kita melakukan k CV ganda, kita memperoleh perkiraan A dari nomor ini. Karena partisi acak S ke k lipatan, ini adalah variabel acak A ~ f ( A ) dengan mean μ k dan varians σ 2 k . Sebaliknya, n -times-ulang hasil CV perkiraan dengan rata-rata yang samaα2 S k A^ S k A^∼f(A) μk σ2k n tetapi varians yang lebih kecil σ 2 k / n .μk σ2k/n
Jelas, . Bias ini adalah sesuatu yang harus kita terima.α2≠μk
Namun, kesalahan yang diharapkan akan lebih besar untuk lebih kecil n , dan akan menjadi yang terbesar untuk n = 1 , setidaknya di bawah asumsi yang masuk akal tentang f ( A ) , misalnya ketika A ˙ ~ N ( μ k , σ 2 k / n ) . Dengan kata lain, CV berulang memungkinkan untuk mendapatkan estimasi yang lebih tepat dari μ kE[|α2−A^|2] n n=1 f(A) A^∼˙N(μk,σ2k/n) μk dan itu adalah hal yang baik karena memberikan perkiraan lebih tepat .α2
Oleh karena itu, pengulangan CV lebih ketat daripada CV yang tidak diulang.
Penulis tidak membantah hal itu! Sebaliknya mereka mengklaim, berdasarkan simulasi, bahwa
Ini hanya berarti bahwa dalam simulasi mereka cukup rendah; dan memang, ukuran sampel terendah yang mereka gunakan adalah 200 , yang mungkin cukup besar untuk menghasilkan σ 2 k kecil . (Perbedaan dalam estimasi yang diperoleh dengan CV yang tidak diulang dan CV yang diulang 30 kali selalu kecil.) Dengan ukuran sampel yang lebih kecil orang dapat mengharapkan varians antar-pengulangan yang lebih besar.σ2k 200 σ2k
CAVEAT: Interval kepercayaan diri!
Poin lain yang penulis buat adalah itu
Tampaknya mereka mengacu pada interval kepercayaan untuk rata-rata di seluruh pengulangan CV. Saya sepenuhnya setuju bahwa ini adalah hal yang tidak berarti untuk dilaporkan! Semakin sering CV diulang, semakin kecil CI ini, tetapi tidak ada yang tertarik pada CI di sekitar perkiraan kami tentang ! Kami peduli tentang CI di sekitar perkiraan kami α 2 .μk α2
Para penulis juga melaporkan CI untuk CV yang tidak diulang, dan tidak sepenuhnya jelas bagi saya bagaimana CI ini dibangun. Saya kira ini adalah CI untuk cara melintasi lipatan . Saya berpendapat bahwa CI ini juga tidak ada artinya!k
Lihatlah salah satu contoh mereka: akurasi untukμk
adult
dataset dengan algoritma NB dan 200 ukuran sampel. Mereka mendapat 78,0% dengan CV yang tidak diulang, CI (72,26, 83,74), 79,0% (77,21, 80,79) dengan CV yang diulang 10 kali, dan 79,1% (78,07, 80,13) dengan CV yang diulang 30 kali. Semua CI ini tidak berguna, termasuk yang pertama. Estimasi terbaik dari adalah 79,1%. Ini sesuai dengan 158 keberhasilan dari 200. Ini menghasilkan interval kepercayaan binomial 95% dari (72,8, 84,5) - lebih luas bahkan dari yang pertama kali dilaporkan. Jika saya ingin melaporkan beberapa CI, ini yang akan saya laporkan.LEBIH BANYAK CAVEAT UMUM: varian CV.
Anda menulis bahwa CV berulang
Orang harus sangat jelas apa yang dimaksud dengan "varian" dari CV. CV yang berulang mengurangi varian estimasi . Perhatikan bahwa dalam kasus CV satu-keluar (LOOCV), ketika k = N , varians ini sama dengan nol. Namun demikian, sering dikatakan bahwa LOOCV sebenarnya memiliki varian tertinggi dari semua CV yang mungkin dilipat k . Lihat misalnya di sini: Variasi dan bias dalam cross-validation: mengapa CV cuti-keluar-satu memiliki varian yang lebih tinggi?μk k=N k
Mengapa demikian? Hal ini karena LOOCV memiliki varian tertinggi sebagai perkiraan yang merupakan kinerja prediktif yang diharapkan dari model data baru ketika dibangun pada dataset baru dengan ukuran yang sama seperti S . Ini adalah masalah yang sangat berbeda.α1 S
sumber