Apakah ada hasil analitik atau makalah eksperimental mengenai pilihan optimal dari koefisien hukuman . Secara optimal , maksud saya parameter yang memaksimalkan probabilitas memilih model terbaik, atau yang meminimalkan kerugian yang diharapkan. Saya bertanya karena seringkali tidak praktis untuk memilih parameter dengan cross-validation atau bootstrap, baik karena sejumlah besar contoh masalah, atau karena ukuran masalah yang dihadapi. Satu-satunya hasil positif yang saya ketahui adalah Candes and Plan, pemilihan model yang mendekati ideal dengan minimalisasi .
model-selection
lasso
shrinkage
gappy
sumber
sumber
Jawaban:
Teorema Checkout 5.1 Bickel et al ini. . Pilihan statistik yang optimal dalam hal kesalahan∥y−y^(λ)∥22 adalah (dengan probabilitas tinggi), untuk konstantaA>2√λ=Aσnoiselogpn−−−−−√ .A>22–√
sumber
Saya menganggap bahwa Anda sebagian besar tertarik pada regresi, seperti dalam makalah yang dikutip, dan bukan aplikasi lain dari hukuman (grafis laso, katakanlah).ℓ1
Saya kemudian percaya bahwa beberapa jawaban dapat ditemukan di koran Pada "derajat kebebasan" dari laso oleh Zou et al. Secara singkat, ini memberikan formula analitik untuk tingkat kebebasan efektif , yang untuk hilangnya kesalahan kuadrat memungkinkan Anda untuk mengganti CV dengan analitik -jenis statistik, mengatakan.Chal
Tempat lain untuk melihat adalah dalam pemilih Dantzig: Estimasi statistik ketika p jauh lebih besar dari n dan makalah diskusi dalam edisi yang sama Annals of Statistics. Pemahaman saya adalah bahwa mereka memecahkan masalah yang berkaitan erat dengan regresi laso tetapi dengan pilihan koefisien penalti yang tetap. Tapi tolong lihat makalah diskusi juga.
Jika Anda tidak tertarik pada prediksi, tetapi dalam pemilihan model, saya tidak mengetahui hasil yang sama. Prediksi model optimal sering menghasilkan terlalu banyak variabel terpilih dalam model regresi. Di koran pemilihan Stabilitas Meinshausen dan Bühlmann menyajikan teknik subsampling yang lebih berguna untuk pemilihan model, tetapi mungkin terlalu komputasional untuk kebutuhan Anda.
sumber
Karena pertanyaan ini telah diajukan, kemajuan menarik telah dibuat. Sebagai contoh, pertimbangkan makalah ini
Mereka mengusulkan metode untuk memilih parameter tuning LASSO dengan jaminan sampel terbatas yang dapat dibuktikan untuk pemilihan model. Seperti yang mereka katakan dalam makalah, "Untuk skema kalibrasi standar, di antaranya Validasi Silang, tidak ada jaminan yang sebanding yang tersedia dalam literatur. Faktanya, kami tidak mengetahui adanya jaminan sampel terbatas untuk skema kalibrasi standar".
sumber
Ini tidak menjawab pertanyaan Anda, tetapi: dalam pengaturan data yang besar, mungkin lebih baik untuk menyelaraskan pembuat peraturan dengan menggunakan kereta tunggal / uji split, alih-alih melakukannya 10 kali atau lebih dalam cross-validation (atau lebih untuk bootstrap). Ukuran dan keterwakilan sampel yang dipilih untuk devset menentukan keakuratan estimasi regulator yang optimal.
Dalam pengalaman saya, kerugian yang tertunda relatif datar di atas kisaran regulator yang substansial. Saya yakin fakta ini mungkin tidak berlaku untuk masalah lain.
sumber