Dalam makalahnya Linear Model Selection oleh Cross-Validation , Jun Shao menunjukkan bahwa untuk masalah pemilihan variabel dalam regresi linier multivariat, metode validasi silang tinggalkan-satu-keluar (LOOCV) adalah 'tidak konsisten asimptotik'. Dalam bahasa Inggris biasa, cenderung memilih model dengan variabel terlalu banyak. Dalam studi simulasi, Shao menunjukkan bahwa bahkan untuk sedikitnya 40 pengamatan, LOOCV dapat berkinerja buruk dalam teknik validasi silang lainnya.
Makalah ini agak kontroversial, dan agak diabaikan (10 tahun setelah publikasi, rekan-rekan chemometrics saya belum pernah mendengarnya dan dengan senang hati menggunakan LOOCV untuk pemilihan variabel ...). Ada juga kepercayaan (saya bersalah atas hal ini), bahwa hasilnya agak melampaui lingkup terbatas asli.
Pertanyaannya, lalu: seberapa jauh hasil ini meluas? Apakah mereka dapat diterapkan untuk masalah berikut?
- Seleksi variabel untuk regresi logistik / GLM?
- Seleksi variabel untuk klasifikasi Fisher LDA?
- Pilihan variabel menggunakan SVM dengan ruang kernel terbatas (atau tidak terbatas)?
- Perbandingan model dalam klasifikasi, katakanlah SVM menggunakan kernel yang berbeda?
- Perbandingan model dalam regresi linier, katakanlah membandingkan MLR dengan Regresi Ridge?
- dll.
sumber
Jawaban:
Anda perlu menentukan tujuan model sebelum Anda dapat mengatakan apakah hasil Shao berlaku. Misalnya, jika tujuannya adalah prediksi, maka LOOCV masuk akal dan inkonsistensi pemilihan variabel tidak menjadi masalah. Di sisi lain, jika tujuannya adalah untuk mengidentifikasi variabel penting dan menjelaskan bagaimana mereka mempengaruhi variabel respon, maka hasil Shao jelas penting dan LOOCV tidak tepat.
AIC adalah asimtotik LOOCV dan BIC adalah asimtotik setara dengan meninggalkan- -out CV mana v = n [ 1 - 1 / ( log ( n ) - 1 ) ] --- hasil BIC untuk model linear saja. Jadi BIC memberikan pemilihan model yang konsisten. Oleh karena itu, ringkasan singkat dari hasil Shao adalah bahwa AIC berguna untuk prediksi tetapi BIC berguna untuk penjelasan.v v=n[1−1/(log(n)−1)]
sumber
Tidak juga, itu dianggap baik di mana teori pemilihan model yang bersangkutan, meskipun tentu saja disalahtafsirkan. Masalah sebenarnya adalah seberapa relevan dengan praktik pemodelan di alam liar. Misalkan Anda melakukan simulasi untuk kasus-kasus yang Anda usulkan untuk menyelidiki dan menentukan bahwa LOOCV memang tidak konsisten. Satu-satunya alasan Anda mendapatkannya adalah karena Anda sudah tahu model "benar" dan karenanya dapat menentukan bahwa probabilitas memulihkan model "benar" tidak menyatu dengan 1. Untuk pemodelan di alam liar, seberapa sering ini benar ( bahwa fenomena dijelaskan oleh model linier dan model "benar" adalah bagian dari yang dipertimbangkan)?
Makalah Shao tentu saja menarik untuk memajukan kerangka teori. Bahkan memberikan kejelasan: jika model "benar" memang sedang dipertimbangkan, maka kami memiliki hasil konsistensi untuk menggantungkan topi kami. Tapi saya tidak yakin seberapa menarik simulasi yang sebenarnya untuk kasus yang Anda gambarkan. Ini adalah alasan utama mengapa sebagian besar buku seperti EOSL tidak terlalu fokus pada hasil Shao, tetapi sebaliknya pada kesalahan prediksi / generalisasi sebagai kriteria pemilihan model.
EDIT: Jawaban yang sangat singkat untuk pertanyaan Anda adalah: Hasil Shao berlaku ketika Anda melakukan estimasi kuadrat terkecil, fungsi kerugian kuadratik. Tidak ada yang lebih luas. (Saya pikir ada makalah yang menarik oleh Yang (2005?) Yang menyelidiki apakah Anda dapat memiliki konsistensi dan efisiensi, dengan jawaban negatif.)
sumber
sumber
1) Jawaban oleh @ars menyebutkan Yang (2005), "Bisakah Kekuatan AIC dan BIC Dibagikan?" . Secara longgar, tampaknya Anda tidak dapat memiliki kriteria pemilihan model mencapai kedua konsistensi (cenderung untuk memilih model yang benar, jika memang ada model yang benar dan itu di antara model yang dipertimbangkan) dan efisiensi (mencapai rata-rata terendah). kesalahan kuadrat rata-rata di antara model yang Anda pilih). Jika Anda cenderung memilih model yang tepat secara rata-rata, kadang-kadang Anda akan mendapatkan model yang sedikit terlalu kecil ... tetapi dengan sering kehilangan prediktor nyata, Anda melakukan MSE yang lebih buruk daripada seseorang yang selalu menyertakan beberapa prediktor palsu.
Jadi, seperti yang dikatakan sebelumnya, jika Anda peduli tentang membuat-prediksi yang baik lebih dari sekadar mendapatkan variabel yang tepat, tidak apa-apa untuk tetap menggunakan LOOCV atau AIC.
2) Tetapi saya juga ingin menunjukkan dua makalahnya yang lain: Yang (2006) "Membandingkan Metode Pembelajaran untuk Klasifikasi" dan Yang (2007) "Konsistensi Validasi Silang untuk Membandingkan Prosedur Regresi" . Makalah-makalah ini menunjukkan bahwa Anda tidak perlu rasio data pelatihan-untuk-pengujian menyusut ke 0 jika Anda membandingkan model yang konvergen pada laju yang lebih lambat daripada model linier.
Jadi, untuk menjawab pertanyaan awal Anda 1-6 lebih langsung: Hasil Shao berlaku ketika membandingkan model linier satu sama lain. Baik untuk regresi atau klasifikasi, jika Anda membandingkan model nonparametrik yang menyatu pada tingkat yang lebih lambat (atau bahkan membandingkan satu model linier dengan satu model nonparametrik), Anda dapat menggunakan sebagian besar data untuk pelatihan dan masih memiliki CV yang konsisten dengan pemilihan model. .. tapi tetap saja, Yang menyarankan bahwa LOOCV terlalu ekstrim.
sumber