Sedikit info lagi; seandainya
- Anda tahu sebelumnya berapa banyak variabel untuk dipilih dan bahwa Anda menetapkan penalti kompleksitas dalam prosedur LARS seperti memiliki banyak variabel dengan koefisien bukan 0,
- biaya perhitungan bukan masalah (jumlah total variabel kecil, katakanlah 50),
- bahwa semua variabel (y, x) kontinu.
Dalam pengaturan apa model LARS (yaitu kesesuaian OLS dari variabel-variabel yang memiliki koefisien tidak nol dalam kecocokan LARS) akan paling berbeda dari model dengan jumlah koefisien yang sama tetapi ditemukan melalui pencarian lengkap (a regsubsets ())?
Sunting: Saya menggunakan 50 variabel dan 250 pengamatan dengan koefisien nyata yang diambil dari standar gaussian kecuali untuk 10 variabel yang memiliki koefisien 'nyata' 0 (dan semua fitur sangat berkorelasi satu sama lain). Pengaturan ini jelas tidak baik karena perbedaan antara dua set variabel yang dipilih adalah menit. Ini benar-benar pertanyaan tentang jenis konfigurasi data apa yang harus disimulasikan untuk mendapatkan perbedaan terbanyak.
sumber
Semakin banyak fitur yang Anda miliki, dalam kaitannya dengan jumlah sampel, semakin besar kemungkinan Anda mendapatkan metode pencarian eksaustif dibandingkan dengan LARS. Istilah penalti yang digunakan dalam LARS membebankan struktur bersarang model yang semakin kompleks, diindeks oleh parameter regularisasi tunggal, sehingga "derajat kebebasan" pemilihan fitur dengan LARS cukup rendah. Untuk pencarian exaustive, ada satu derajat kebebasan efektif (biner) per fitur, yang berarti bahwa pencarian exaustive lebih mampu mengeksploitasi variabilitas acak dalam kriteria pemilihan fitur karena pengambilan sampel acak data. Akibatnya, model pencarian exaustive kemungkinan besar sangat pas untuk kriteria pemilihan fitur, karena "kelas hipotesis" lebih besar.
sumber