Haruskah validasi silang berulang digunakan untuk menilai model prediksi?

Argumen yang membuat makalah itu tampak aneh bagi saya.

Menurut makalah, tujuan CV adalah untuk memperkirakan , kinerja prediksi yang diharapkan dari model pada data baru, mengingat bahwa model dilatih pada dataset diamati . Ketika kita melakukan CV ganda, kita memperoleh perkiraan dari nomor ini. Karena partisi acak ke lipatan, ini adalah variabel acak dengan mean dan varians . Sebaliknya, -times-ulang hasil CV perkiraan dengan rata-rata yang sama $\alpha_2$ $S$ $k$ $\hat A$ $S$ $k$ $\hat A \sim f(A)$ $\mu_k$ $\sigma^2_k$ $n$ tetapi varians yang lebih kecil . $\mu_k$ $\sigma^2_k/n$

Jelas, . Bias ini adalah sesuatu yang harus kita terima. $\alpha_2\ne \mu_k$

Namun, kesalahan yang diharapkan akan lebih besar untuk lebih kecil , dan akan menjadi yang terbesar untuk , setidaknya di bawah asumsi yang masuk akal tentang , misalnya ketika . Dengan kata lain, CV berulang memungkinkan untuk mendapatkan estimasi yang lebih tepat dari $\mathbb E\big[|\alpha_2-\hat A|^2\big]$ $n$ $n=1$ $f(A)$ $\hat A\mathrel{\dot\sim} \mathcal N(\mu_k,\sigma^2_k/n)$ $\mu_k$ dan itu adalah hal yang baik karena memberikan perkiraan lebih tepat . $\alpha_2$

Oleh karena itu, pengulangan CV lebih ketat daripada CV yang tidak diulang.

Penulis tidak membantah hal itu! Sebaliknya mereka mengklaim, berdasarkan simulasi, bahwa

mengurangi varians [dengan mengulangi CV] adalah, dalam banyak kasus, tidak terlalu berguna, dan pada dasarnya merupakan pemborosan sumber daya komputasi.

Ini hanya berarti bahwa dalam simulasi mereka cukup rendah; dan memang, ukuran sampel terendah yang mereka gunakan adalah , yang mungkin cukup besar untuk menghasilkan . (Perbedaan dalam estimasi yang diperoleh dengan CV yang tidak diulang dan CV yang diulang 30 kali selalu kecil.) Dengan ukuran sampel yang lebih kecil orang dapat mengharapkan varians antar-pengulangan yang lebih besar. $\sigma^2_k$ $200$ $\sigma^2_k$

CAVEAT: Interval kepercayaan diri!

Poin lain yang penulis buat adalah itu

pelaporan interval kepercayaan [dalam validasi silang berulang] menyesatkan.

Tampaknya mereka mengacu pada interval kepercayaan untuk rata-rata di seluruh pengulangan CV. Saya sepenuhnya setuju bahwa ini adalah hal yang tidak berarti untuk dilaporkan! Semakin sering CV diulang, semakin kecil CI ini, tetapi tidak ada yang tertarik pada CI di sekitar perkiraan kami tentang ! Kami peduli tentang CI di sekitar perkiraan kami . $\mu_k$ $\alpha_2$

Para penulis juga melaporkan CI untuk CV yang tidak diulang, dan tidak sepenuhnya jelas bagi saya bagaimana CI ini dibangun. Saya kira ini adalah CI untuk cara melintasi lipatan . Saya berpendapat bahwa CI ini juga tidak ada artinya! $k$

Lihatlah salah satu contoh mereka: akurasi untuk adultdataset dengan algoritma NB dan 200 ukuran sampel. Mereka mendapat 78,0% dengan CV yang tidak diulang, CI (72,26, 83,74), 79,0% (77,21, 80,79) dengan CV yang diulang 10 kali, dan 79,1% (78,07, 80,13) dengan CV yang diulang 30 kali. Semua CI ini tidak berguna, termasuk yang pertama. Estimasi terbaik dari adalah 79,1%. Ini sesuai dengan 158 keberhasilan dari 200. Ini menghasilkan interval kepercayaan binomial 95% dari (72,8, 84,5) - lebih luas bahkan dari yang pertama kali dilaporkan. Jika saya ingin melaporkan beberapa CI, ini yang akan saya laporkan. $\mu_k$

LEBIH BANYAK CAVEAT UMUM: varian CV.

Anda menulis bahwa CV berulang

telah menjadi teknik populer untuk mengurangi varian cross-validation.

Orang harus sangat jelas apa yang dimaksud dengan "varian" dari CV. CV yang berulang mengurangi varian estimasi . Perhatikan bahwa dalam kasus CV satu-keluar (LOOCV), ketika , varians ini sama dengan nol. Namun demikian, sering dikatakan bahwa LOOCV sebenarnya memiliki varian tertinggi dari semua CV yang mungkin dilipat . Lihat misalnya di sini: Variasi dan bias dalam cross-validation: mengapa CV cuti-keluar-satu memiliki varian yang lebih tinggi? $\mu_k$ $k=N$ $k$

Mengapa demikian? Hal ini karena LOOCV memiliki varian tertinggi sebagai perkiraan yang merupakan kinerja prediktif yang diharapkan dari model data baru ketika dibangun pada dataset baru dengan ukuran yang sama seperti . Ini adalah masalah yang sangat berbeda. $\alpha_1$ $S$

amuba kata Reinstate Monica
sumber

Saya harap @cbeleites akan melihat utas ini dan berkomentar di sini atau meninggalkan jawabannya sendiri: Saya tahu dia (atau dulu) sering menggunakan CV berulang dan saya pikir menganjurkan untuk menghitung variabilitas dibandingkan pengulangan sebagai ukuran stabilitas model. Tapi saya tidak berpikir dia akan menghitung CI diulang.

Amoeba berkata Reinstate Monica

μ_{k}

$\mu_k$

α_{2}

$\alpha_2$

μ_{k}

$\mu_k$

α_{2}

$\alpha_2$

μ_{k}

$\mu_k$

@ RobertTF: Saya berbicara (mengikuti makalah V & B) tentang memperkirakan kinerja model. Tesis saya adalah bahwa CV berulang lebih tepat daripada CV tidak berulang, dan saya pikir itu tidak diragukan (V&R berpendapat bahwa perbedaan dalam presisi cenderung tidak begitu penting dalam praktiknya). Membandingkan dua model jauh lebih rumit, karena katakanlah Anda menjalankan CV dan mendapatkan 70% untuk satu model dan 71% untuk model lain. Apakah ini perbedaan "signifikan"? Nah, itu masalah yang sulit tanpa jawaban yang pasti. Dan itu independen dari masalah yang berulang / tidak berulang.

Amoeba berkata Reinstate Monica

Makanan untuk dipikirkan: diterapkanpredictivemodeling.com/blog/2014/11/27/…

shadowtalker

σ_{k}

$\sigma_k$

Haruskah validasi silang berulang digunakan untuk menilai model prediksi?

Jawaban: