Haruskah validasi silang berulang digunakan untuk menilai model prediksi?

16

Saya menemukan artikel 2012 ini oleh Gitte Vanwinckelen dan Hendrik Blockeel yang mempertanyakan kegunaan berulang cross-validation, yang telah menjadi teknik populer untuk mengurangi varian cross-validation.

Para penulis menunjukkan bahwa sementara validasi silang berulang mengurangi variasi prediksi model, karena dataset sampel yang sama sedang di-resampling, rata-rata estimasi validasi silang yang di-resvergen akan menyatu dengan estimasi yang bias dari akurasi prediksi yang sebenarnya dan karenanya tidak berguna.

Haruskah validasi silang berulang digunakan meskipun ada keterbatasan ini?

RobertF
sumber
6
Dalam pengalaman saya, validasi silang (berulang atau tidak) tidak memberikan perkiraan akurasi prediksi yang sangat baik. Tetapi ini sangat berguna untuk membandingkan kinerja prediksi model yang berbeda. Ini adalah cara yang baik untuk memilih antara model tetapi bukan cara yang baik untuk memperkirakan kinerja model tunggal.
Flounderer
@ Penyelundup Itu poin bagus. Interpretasi saya terhadap artikel ini adalah bahwa kita tidak dapat membuat perbandingan model yang bermakna berdasarkan validasi silang berulang vs validasi silang berulang. Anda mencoba memeras informasi yang tidak masuk akal dari data. Atau apakah itu salah?
RobertF

Jawaban:

11

Argumen yang membuat makalah itu tampak aneh bagi saya.

Menurut makalah, tujuan CV adalah untuk memperkirakan , kinerja prediksi yang diharapkan dari model pada data baru, mengingat bahwa model dilatih pada dataset S yang diamati . Ketika kita melakukan k CV ganda, kita memperoleh perkiraan A dari nomor ini. Karena partisi acak S ke k lipatan, ini adalah variabel acak A ~ f ( A ) dengan mean μ k dan varians σ 2 k . Sebaliknya, n -times-ulang hasil CV perkiraan dengan rata-rata yang samaα2SkA^SkA^f(A)μkσk2n tetapi varians yang lebih kecil σ 2 k / n .μkσk2/n

Jelas, . Bias ini adalah sesuatu yang harus kita terima.α2μk

Namun, kesalahan yang diharapkan akan lebih besar untuk lebih kecil n , dan akan menjadi yang terbesar untuk n = 1 , setidaknya di bawah asumsi yang masuk akal tentang f ( A ) , misalnya ketika A ˙ ~ N ( μ k , σ 2 k / n ) . Dengan kata lain, CV berulang memungkinkan untuk mendapatkan estimasi yang lebih tepat dari μ kE[|α2A^|2]nn=1f(A)A^˙N(μk,σk2/n)μkdan itu adalah hal yang baik karena memberikan perkiraan lebih tepat .α2

Oleh karena itu, pengulangan CV lebih ketat daripada CV yang tidak diulang.

Penulis tidak membantah hal itu! Sebaliknya mereka mengklaim, berdasarkan simulasi, bahwa

mengurangi varians [dengan mengulangi CV] adalah, dalam banyak kasus, tidak terlalu berguna, dan pada dasarnya merupakan pemborosan sumber daya komputasi.

Ini hanya berarti bahwa dalam simulasi mereka cukup rendah; dan memang, ukuran sampel terendah yang mereka gunakan adalah 200 , yang mungkin cukup besar untuk menghasilkan σ 2 k kecil . (Perbedaan dalam estimasi yang diperoleh dengan CV yang tidak diulang dan CV yang diulang 30 kali selalu kecil.) Dengan ukuran sampel yang lebih kecil orang dapat mengharapkan varians antar-pengulangan yang lebih besar.σk2200σk2

CAVEAT: Interval kepercayaan diri!

Poin lain yang penulis buat adalah itu

pelaporan interval kepercayaan [dalam validasi silang berulang] menyesatkan.

Tampaknya mereka mengacu pada interval kepercayaan untuk rata-rata di seluruh pengulangan CV. Saya sepenuhnya setuju bahwa ini adalah hal yang tidak berarti untuk dilaporkan! Semakin sering CV diulang, semakin kecil CI ini, tetapi tidak ada yang tertarik pada CI di sekitar perkiraan kami tentang ! Kami peduli tentang CI di sekitar perkiraan kami α 2 .μkα2

Para penulis juga melaporkan CI untuk CV yang tidak diulang, dan tidak sepenuhnya jelas bagi saya bagaimana CI ini dibangun. Saya kira ini adalah CI untuk cara melintasi lipatan . Saya berpendapat bahwa CI ini juga tidak ada artinya!k

Lihatlah salah satu contoh mereka: akurasi untuk adultdataset dengan algoritma NB dan 200 ukuran sampel. Mereka mendapat 78,0% dengan CV yang tidak diulang, CI (72,26, 83,74), 79,0% (77,21, 80,79) dengan CV yang diulang 10 kali, dan 79,1% (78,07, 80,13) dengan CV yang diulang 30 kali. Semua CI ini tidak berguna, termasuk yang pertama. Estimasi terbaik dari adalah 79,1%. Ini sesuai dengan 158 keberhasilan dari 200. Ini menghasilkan interval kepercayaan binomial 95% dari (72,8, 84,5) - lebih luas bahkan dari yang pertama kali dilaporkan. Jika saya ingin melaporkan beberapa CI, ini yang akan saya laporkan.μk

LEBIH BANYAK CAVEAT UMUM: varian CV.

Anda menulis bahwa CV berulang

telah menjadi teknik populer untuk mengurangi varian cross-validation.

Orang harus sangat jelas apa yang dimaksud dengan "varian" dari CV. CV yang berulang mengurangi varian estimasi . Perhatikan bahwa dalam kasus CV satu-keluar (LOOCV), ketika k = N , varians ini sama dengan nol. Namun demikian, sering dikatakan bahwa LOOCV sebenarnya memiliki varian tertinggi dari semua CV yang mungkin dilipat k . Lihat misalnya di sini: Variasi dan bias dalam cross-validation: mengapa CV cuti-keluar-satu memiliki varian yang lebih tinggi?μkk=Nk

Mengapa demikian? Hal ini karena LOOCV memiliki varian tertinggi sebagai perkiraan yang merupakan kinerja prediktif yang diharapkan dari model data baru ketika dibangun pada dataset baru dengan ukuran yang sama seperti S . Ini adalah masalah yang sangat berbeda.α1S

amuba kata Reinstate Monica
sumber
1
Saya harap @cbeleites akan melihat utas ini dan berkomentar di sini atau meninggalkan jawabannya sendiri: Saya tahu dia (atau dulu) sering menggunakan CV berulang dan saya pikir menganjurkan untuk menghitung variabilitas dibandingkan pengulangan sebagai ukuran stabilitas model. Tapi saya tidak berpikir dia akan menghitung CI diulang.
Amoeba berkata Reinstate Monica
1
μkα2μkα2μk
1
@ RobertTF: Saya berbicara (mengikuti makalah V & B) tentang memperkirakan kinerja model. Tesis saya adalah bahwa CV berulang lebih tepat daripada CV tidak berulang, dan saya pikir itu tidak diragukan (V&R berpendapat bahwa perbedaan dalam presisi cenderung tidak begitu penting dalam praktiknya). Membandingkan dua model jauh lebih rumit, karena katakanlah Anda menjalankan CV dan mendapatkan 70% untuk satu model dan 71% untuk model lain. Apakah ini perbedaan "signifikan"? Nah, itu masalah yang sulit tanpa jawaban yang pasti. Dan itu independen dari masalah yang berulang / tidak berulang.
Amoeba berkata Reinstate Monica
Makanan untuk dipikirkan: diterapkanpredictivemodeling.com/blog/2014/11/27/…
shadowtalker
1
σk