Metode pemilihan variabel algoritmik bertahap cenderung memilih model yang bias kurang lebih setiap perkiraan dalam model regresi ( s dan UK, nilai- p , statistik F , dll.), Dan hampir sama dengan mengecualikan prediktor sejati sebagai termasuk prediktor palsu menurut literatur simulasi yang cukup matang.
Apakah LASSO menderita dengan cara spesifik yang sama ketika digunakan untuk memilih variabel?
11.4.1 Variable-Selection Consistency for the Lasso
Jawaban:
Interpretasi probabilitas ekspresi frequentist dari kemungkinan, nilai-p dan sebagainya, untuk model LASSO, dan regresi bertahap, tidak benar.
Ungkapan-ungkapan itu melebih-lebihkan probabilitas. Misalnya interval kepercayaan 95% untuk beberapa parameter seharusnya mengatakan bahwa Anda memiliki probabilitas 95% bahwa metode ini akan menghasilkan interval dengan variabel model sebenarnya di dalam interval itu.
Namun, model yang sesuai tidak dihasilkan dari hipotesis tunggal yang khas, dan sebagai gantinya kami memilih ceri (pilih dari banyak model alternatif yang mungkin) ketika kami melakukan regresi bertahap atau regresi LASSO.
Tidak masuk akal untuk mengevaluasi kebenaran parameter model (terutama ketika ada kemungkinan bahwa model tersebut tidak benar).
Dalam contoh di bawah ini, dijelaskan nanti, model ini cocok untuk banyak regresi dan 'menderita' multikolinearitas. Hal ini membuat kemungkinan bahwa regressor tetangga (yang sangat berkorelasi) dipilih dalam model daripada yang benar-benar dalam model. Korelasi yang kuat menyebabkan koefisien memiliki kesalahan / varians yang besar (berkaitan dengan matriks ).(XTX)−1
Namun, varian tinggi ini karena multikolinieritas tidak 'terlihat' dalam diagnostik seperti nilai-p atau standar kesalahan koefisien, karena ini didasarkan pada matriks desain lebih kecil dengan regresor yang lebih sedikit . (dan tidak ada metode langsung untuk menghitung jenis statistik untuk LASSO)X
Contoh: grafik di bawah ini yang menampilkan hasil model mainan untuk beberapa sinyal yang merupakan jumlah linier dari 10 kurva Gaussian (ini misalnya menyerupai analisis dalam kimia di mana sinyal untuk spektrum dianggap sebagai jumlah linier dari beberapa komponen). Sinyal dari 10 kurva dilengkapi dengan model 100 komponen (kurva Gaussian dengan rata-rata berbeda) menggunakan LASSO. Sinyal diperkirakan dengan baik (bandingkan kurva merah dan hitam yang cukup dekat). Tetapi, koefisien yang mendasarinya sebenarnya tidak diestimasi dengan baik dan mungkin sepenuhnya salah (bandingkan bilah merah dan hitam dengan titik-titik yang tidak sama). Lihat juga 10 koefisien terakhir:
Model LASSO tidak memilih koefisien yang sangat perkiraan, tetapi dari perspektif koefisien itu sendiri itu berarti kesalahan besar ketika koefisien yang seharusnya tidak nol diperkirakan nol dan koefisien tetangga yang seharusnya nol diperkirakan menjadi tidak nol. Interval kepercayaan apa pun untuk koefisien akan sangat kecil artinya.
Pemasangan LASSO
Pemasangan bertahap
Sebagai perbandingan, kurva yang sama dapat dilengkapi dengan algoritma bertahap yang mengarah ke gambar di bawah ini. (dengan masalah yang sama bahwa koefisiennya dekat tetapi tidak cocok)
Bahkan ketika Anda mempertimbangkan keakuratan kurva (daripada parameter, yang pada poin sebelumnya dibuat jelas bahwa itu tidak masuk akal) maka Anda harus berurusan dengan overfitting. Ketika Anda melakukan prosedur pemasangan dengan LASSO maka Anda menggunakan data pelatihan (agar sesuai dengan model dengan parameter berbeda) dan data uji / validasi (untuk mencari / menemukan yang merupakan parameter terbaik), tetapi Anda juga harus menggunakan set terpisah ketiga data uji / validasi untuk mengetahui kinerja data.
P-value atau sesuatu yang simular tidak akan bekerja karena Anda bekerja pada model tuned yang memetik ceri dan berbeda (derajat kebebasan yang jauh lebih besar) dari metode pemasangan linier biasa.
Anda tampaknya merujuk pada masalah seperti bias dalam nilai-nilai seperti , nilai-p, skor-F atau kesalahan standar. Saya percaya bahwa Lasso tidak digunakan untuk memecahkan mereka masalah.R2
Saya berpikir bahwa alasan utama untuk menggunakan LASSO sebagai pengganti regresi bertahap adalah bahwa LASSO memungkinkan pemilihan parameter yang kurang serakah, yang kurang dipengaruhi oleh multikoliner. (lebih banyak perbedaan antara LASSO dan stepwise: Superioritas LASSO atas seleksi maju / eliminasi mundur dalam hal kesalahan prediksi validasi silang model )
Kode untuk contoh gambar
sumber
- Frank Harrell
- Adrian
- Adrian
sumber