Kapan hasil Shao pada validasi silang cuti-keluar berlaku?

22

Dalam makalahnya Linear Model Selection oleh Cross-Validation , Jun Shao menunjukkan bahwa untuk masalah pemilihan variabel dalam regresi linier multivariat, metode validasi silang tinggalkan-satu-keluar (LOOCV) adalah 'tidak konsisten asimptotik'. Dalam bahasa Inggris biasa, cenderung memilih model dengan variabel terlalu banyak. Dalam studi simulasi, Shao menunjukkan bahwa bahkan untuk sedikitnya 40 pengamatan, LOOCV dapat berkinerja buruk dalam teknik validasi silang lainnya.

Makalah ini agak kontroversial, dan agak diabaikan (10 tahun setelah publikasi, rekan-rekan chemometrics saya belum pernah mendengarnya dan dengan senang hati menggunakan LOOCV untuk pemilihan variabel ...). Ada juga kepercayaan (saya bersalah atas hal ini), bahwa hasilnya agak melampaui lingkup terbatas asli.

Pertanyaannya, lalu: seberapa jauh hasil ini meluas? Apakah mereka dapat diterapkan untuk masalah berikut?

  1. Seleksi variabel untuk regresi logistik / GLM?
  2. Seleksi variabel untuk klasifikasi Fisher LDA?
  3. Pilihan variabel menggunakan SVM dengan ruang kernel terbatas (atau tidak terbatas)?
  4. Perbandingan model dalam klasifikasi, katakanlah SVM menggunakan kernel yang berbeda?
  5. Perbandingan model dalam regresi linier, katakanlah membandingkan MLR dengan Regresi Ridge?
  6. dll.
shabbychef
sumber
Pasti ada sesuatu dalam buku-buku chemometrics; satu-satunya pria yang saya kenal yang menggunakan LOO juga melakukannya.

Jawaban:

14

Anda perlu menentukan tujuan model sebelum Anda dapat mengatakan apakah hasil Shao berlaku. Misalnya, jika tujuannya adalah prediksi, maka LOOCV masuk akal dan inkonsistensi pemilihan variabel tidak menjadi masalah. Di sisi lain, jika tujuannya adalah untuk mengidentifikasi variabel penting dan menjelaskan bagaimana mereka mempengaruhi variabel respon, maka hasil Shao jelas penting dan LOOCV tidak tepat.

AIC adalah asimtotik LOOCV dan BIC adalah asimtotik setara dengan meninggalkan- -out CV mana v = n [ 1 - 1 / ( log ( n ) - 1 ) ] --- hasil BIC untuk model linear saja. Jadi BIC memberikan pemilihan model yang konsisten. Oleh karena itu, ringkasan singkat dari hasil Shao adalah bahwa AIC berguna untuk prediksi tetapi BIC berguna untuk penjelasan.vv=n[11/(log(n)1)]

Rob Hyndman
sumber
1
Saya percaya Shao menunjukkan bahwa k-fold CV tidak konsisten jika diperbaiki ketika n tumbuh. kn
shabbychef
1
BIC tumbuh dengan n.
Rob Hyndman
1
Saya hanya akan diam-diam mengingatkan bahwa * IC <--> * korespondensi CV dari kertas Shao hanya berfungsi untuk model linier, dan BIC hanya setara dengan k-fold CV dengan k tertentu.
Sebenarnya, saya percaya Shao menunjukkan bahwa CV tidak konsisten kecuali sebagai n inf , di mana n v adalah jumlah sampel dalam tes set. Jadi k -fold CV selalu tidak konsisten untuk pemilihan variabel. Apakah saya salah paham? Dengan k -fold CV yang saya maksud adalah membagi sampel menjadi kelompok k dan melatih pada k - 1 dari mereka, dan menguji pada 1 dari mereka, kemudian mengulangi k kali. Kemudian n v / n = 1 / k untuk knv/n1ninfnvkkkk1knv/n=1/kk-lipat CV, yang tidak pernah mendekati 1.
shabbychef
3
@ MBb: Tidak - bukti AIC / LOO oleh Stone 1977 tidak mengasumsikan model linier. Karena alasan ini, tidak seperti hasil Shao, ini dikutip secara luas; lihat misalnya bab pemilihan model baik di EOSL atau Buku Pegangan Statistik Komputasi, atau benar-benar bab / makalah yang bagus tentang pemilihan model. Ini hanya sedikit lebih dari satu halaman dan layak dibaca karena agak rapi untuk cara dia menghindari harus menghitung informasi / Skor Fisher untuk mendapatkan hasilnya.
ars
7

Makalah ini agak kontroversial, dan agak diabaikan

Tidak juga, itu dianggap baik di mana teori pemilihan model yang bersangkutan, meskipun tentu saja disalahtafsirkan. Masalah sebenarnya adalah seberapa relevan dengan praktik pemodelan di alam liar. Misalkan Anda melakukan simulasi untuk kasus-kasus yang Anda usulkan untuk menyelidiki dan menentukan bahwa LOOCV memang tidak konsisten. Satu-satunya alasan Anda mendapatkannya adalah karena Anda sudah tahu model "benar" dan karenanya dapat menentukan bahwa probabilitas memulihkan model "benar" tidak menyatu dengan 1. Untuk pemodelan di alam liar, seberapa sering ini benar ( bahwa fenomena dijelaskan oleh model linier dan model "benar" adalah bagian dari yang dipertimbangkan)?

Makalah Shao tentu saja menarik untuk memajukan kerangka teori. Bahkan memberikan kejelasan: jika model "benar" memang sedang dipertimbangkan, maka kami memiliki hasil konsistensi untuk menggantungkan topi kami. Tapi saya tidak yakin seberapa menarik simulasi yang sebenarnya untuk kasus yang Anda gambarkan. Ini adalah alasan utama mengapa sebagian besar buku seperti EOSL tidak terlalu fokus pada hasil Shao, tetapi sebaliknya pada kesalahan prediksi / generalisasi sebagai kriteria pemilihan model.

EDIT: Jawaban yang sangat singkat untuk pertanyaan Anda adalah: Hasil Shao berlaku ketika Anda melakukan estimasi kuadrat terkecil, fungsi kerugian kuadratik. Tidak ada yang lebih luas. (Saya pikir ada makalah yang menarik oleh Yang (2005?) Yang menyelidiki apakah Anda dapat memiliki konsistensi dan efisiensi, dengan jawaban negatif.)

ars
sumber
Saya pikir itu tidak relevan apakah saya tahu model yang sebenarnya di alam liar. Jika ada model 'benar', saya lebih suka metode yang lebih mungkin menemukannya.
shabbychef
2
@shabbychef: Saya tidak setuju. Tetapi perhatikan: "Jika ada model 'benar'" dan itu sedang dipertimbangkan .. bagaimana Anda tahu ini apriori?
ars
1
Perhatikan juga bahwa paragraf kedua saya benar-benar menegaskan pendapat Anda. Ini adalah properti yang bagus, tetapi tidak semua jelas bagaimana penerapannya di alam liar; meskipun itu menghibur dalam beberapa hal, itu mungkin salah arah.
ars
2
@ars - perhatikan bahwa "linearitas" dari model 'benar' bukan satu-satunya cara untuk memulihkan model 'benar' dari model linier. Jika komponen non-linear dari model 'benar' dapat dimodelkan dengan baik oleh istilah kebisingan (misalnya efek non-linear cenderung membatalkan satu sama lain) maka kita dapat menyebut model linear 'benar' menurut saya. Ini mirip dengan menganggap sisanya dalam seri taylor linier dapat diabaikan.
probabilityislogic
1
v
6



10/101


sumber
Di luar bukti, saya bertanya-tanya apakah ada studi simulasi dari salah satu dari lima kasus yang saya daftarkan, misalnya.
shabbychef
Ingin membuat beberapa?
2
Saya lakukan; Saya harus belajar lebih banyak R, meskipun, untuk membagikan hasilnya di sini.
shabbychef
1
@shabbychef: pernah melakukan ini? Dan omong-omong, jika Anda masih menghitung ahli kimia yang menggunakan atau tidak menggunakan CV untuk pemilihan variabel, Anda dapat menghitung saya di sisi mereka yang menolak untuk melakukannya, karena a) Saya belum punya data nyata diatur dengan cukup kasus (sampel) untuk memungkinkan bahkan perbandingan model tunggal, dan b) untuk data spektroskopi saya, informasi yang relevan biasanya "dioleskan" pada sebagian besar spektrum, jadi saya lebih suka regularisasi yang tidak melakukan pemilihan variabel keras.
cbeleites mendukung Monica
1

1) Jawaban oleh @ars menyebutkan Yang (2005), "Bisakah Kekuatan AIC dan BIC Dibagikan?" . Secara longgar, tampaknya Anda tidak dapat memiliki kriteria pemilihan model mencapai kedua konsistensi (cenderung untuk memilih model yang benar, jika memang ada model yang benar dan itu di antara model yang dipertimbangkan) dan efisiensi (mencapai rata-rata terendah). kesalahan kuadrat rata-rata di antara model yang Anda pilih). Jika Anda cenderung memilih model yang tepat secara rata-rata, kadang-kadang Anda akan mendapatkan model yang sedikit terlalu kecil ... tetapi dengan sering kehilangan prediktor nyata, Anda melakukan MSE yang lebih buruk daripada seseorang yang selalu menyertakan beberapa prediktor palsu.

Jadi, seperti yang dikatakan sebelumnya, jika Anda peduli tentang membuat-prediksi yang baik lebih dari sekadar mendapatkan variabel yang tepat, tidak apa-apa untuk tetap menggunakan LOOCV atau AIC.

2) Tetapi saya juga ingin menunjukkan dua makalahnya yang lain: Yang (2006) "Membandingkan Metode Pembelajaran untuk Klasifikasi" dan Yang (2007) "Konsistensi Validasi Silang untuk Membandingkan Prosedur Regresi" . Makalah-makalah ini menunjukkan bahwa Anda tidak perlu rasio data pelatihan-untuk-pengujian menyusut ke 0 jika Anda membandingkan model yang konvergen pada laju yang lebih lambat daripada model linier.

Jadi, untuk menjawab pertanyaan awal Anda 1-6 lebih langsung: Hasil Shao berlaku ketika membandingkan model linier satu sama lain. Baik untuk regresi atau klasifikasi, jika Anda membandingkan model nonparametrik yang menyatu pada tingkat yang lebih lambat (atau bahkan membandingkan satu model linier dengan satu model nonparametrik), Anda dapat menggunakan sebagian besar data untuk pelatihan dan masih memiliki CV yang konsisten dengan pemilihan model. .. tapi tetap saja, Yang menyarankan bahwa LOOCV terlalu ekstrim.

civilstat
sumber