Saya membaca berulang-ulang bahwa validasi silang "Leave-one-out" memiliki varian yang tinggi karena tumpang tindih yang besar dari lipatan pelatihan. Namun saya tidak mengerti mengapa itu adalah: Tidak seharusnya kinerja validasi silang menjadi sangat stabil (varian rendah) justru karena set pelatihan hampir identik? Atau apakah saya memiliki pemahaman yang salah tentang konsep "varian" sama sekali?
Saya juga tidak sepenuhnya mengerti bagaimana LOO bisa tidak bias, tetapi memiliki varian yang tinggi? Jika estimasi LOO sama dengan nilai estimator sebenarnya dalam ekspektasi - bagaimana bisa kemudian memiliki varians tinggi?
Catatan: Saya tahu bahwa ada pertanyaan serupa di sini: Mengapa varians silang validasi-tinggalkan (satu-keluar-keluar) tentang estimasi rata-rata untuk kesalahan tinggi? Namun orang yang telah menjawab mengatakan kemudian dalam komentar bahwa meskipun dia mengalami peningkatan, dia menyadari bahwa jawabannya salah.
sumber
Jawaban:
Pertanyaan ini mungkin akhirnya akan ditutup sebagai duplikat dari Varians dan bias dalam validasi silang: mengapa CV cuti satu memiliki varian yang lebih tinggi? , tetapi sebelum itu terjadi saya pikir saya akan mengubah komentar saya menjadi jawaban.
Anda perlu memikirkan perbedaan antar realisasi yang berbeda dari keseluruhan dataset. Untuk dataset yang diberikan, validasi silang keluar-keluar-memang akan menghasilkan model yang sangat mirip untuk setiap split karena set pelatihan berpotongan sangat banyak (seperti yang Anda perhatikan dengan benar), tetapi semua model ini dapat bersama-sama jauh dari model sebenarnya; di seluruh dataset, mereka akan jauh di arah yang berbeda, maka varians yang tinggi.
Setidaknya begitulah cara saya memahaminya. Silakan lihat utas terkait untuk diskusi lebih lanjut, dan makalah yang direferensikan untuk diskusi lebih lanjut.
sumber
for one particular dataset we can expect a very good estimation
. Saya kira orang dapat mengartikannya sebagai arti bahwa estimasi beberapa parameter dataset spesifik akan baik. Tetapi secara umum validasi silang diperkirakan untuk memperkirakan parameter populasi : seberapa baik jenis model tertentu dapat membuat prediksi tentang variabel dependen dalam populasi; dan kami tidak dapat mengharapkan estimasi yang sangat baik dari itu oleh LOOCV, karena apa yang Anda tulis (perkiraannyavery specific for this particular dataset
).Varians tinggi ini berkaitan dengan ruang set pelatihan. Inilah sebabnya mengapa LOOCV memiliki varian tinggi: di LOOCV, kami mendapatkan kesalahan prediksi untuk setiap pengamatan, katakanlah pengamatan saya, dengan menggunakan seluruh dataset yang diamati kecuali pengamatan ini. Jadi, nilai prediksi untuk i sangat tergantung pada dataset saat ini. Sekarang asumsikan kita mengamati dataset independen lain dan cocok dengan model pada dataset baru ini. Jika kita menggunakan model baru ini untuk mendapatkan nilai prediksi untuk pengamatan i, nilai prediksi berpotensi sangat berbeda dari yang dievaluasi oleh LOOCV (walaupun benar rata-rata (tidak bias)).
Ini adalah intuisi di balik varian tinggi prediksi kesalahan di LOOCV.
Namun, jika Anda menggunakan LOOCV untuk membandingkan hasil model dengan hiperparameter yang berbeda, saya yakin Anda dapat menggunakan LOOCV dengan aman untuk memperkirakan kesalahan prediksi, asalkan nilai sebenarnya dari kesalahan prediksi bukan minat Anda, yaitu, Anda hanya ingin bandingkan model yang berbeda yang memiliki set pelatihan yang diobservasi dan Anda tidak peduli dengan kesalahan sebenarnya yang akan diperkirakan.
Yang mengatakan, sebagai aturan praktis, jika Anda memiliki sampel kecil, gunakan LOOCV, jika tidak, gunakan CV k-fold dengan nilai lebih kecil untuk k.
sumber