LASSO untuk model penjelas: parameter menyusut atau tidak?

9

Saya sedang melakukan analisis di mana tujuan utamanya adalah untuk memahami data. Dataset cukup besar untuk cross-validation (10k), dan prediktor menyertakan variabel kontinu dan dummy, dan hasilnya kontinu. Tujuan utama adalah untuk melihat apakah masuk akal untuk mengeluarkan beberapa prediktor, agar model lebih mudah diinterpretasikan.

Pertanyaan:

  1. Pertanyaan saya adalah "vars yang menjelaskan hasil dan merupakan bagian 'cukup kuat' dari penjelasan itu". Tetapi untuk memilih parameter lambda untuk laso, Anda menggunakan validasi silang, yaitu validitas prediktif sebagai kriteria. Ketika melakukan inferensi, apakah validitas prediktif merupakan proxy yang cukup baik untuk pertanyaan umum yang saya tanyakan?

  2. Katakanlah LASSO hanya menyimpan 3 dari 8 prediksi. Dan sekarang saya bertanya pada diri sendiri: "apa dampaknya terhadap hasilnya". Sebagai contoh, saya menemukan perbedaan gender. Setelah penyusutan laso, koefisien menunjukkan bahwa wanita mendapat skor 1 poin lebih tinggi daripada pria. Tetapi tanpa penyusutan (yaitu, pada dataset aktual), mereka mendapat skor 2,5 poin lebih tinggi.

    • Mana yang akan saya ambil sebagai efek gender "nyata" saya? Pergi hanya dengan validitas prediktif, itu akan menjadi koefisien menyusut.
    • Atau dalam konteks, katakan bahwa saya sedang menulis laporan untuk orang yang tidak berpengalaman dalam statistik. Koefisien mana yang akan saya laporkan kepada mereka?
mbokulic
sumber
1
Model seperti apa yang Anda lihat? Model linear, logistik, poisson, dll.?
TrynnaDoStat
1
Ini model linier, tapi saya rasa itu tidak membuat perbedaan untuk pertanyaan
mbokulic

Jawaban:

7

Jika tujuan Anda adalah memperkirakan parameter secara akurat dalam model Anda, maka seberapa dekat Anda dengan model sebenarnya adalah bagaimana Anda harus memilih model Anda. Validitas prediktif melalui cross-validation adalah salah satu cara untuk melakukan ini dan merupakan pilihan untuk memilih dalam regresi LASSO.λ

Sekarang, untuk menjawab pertanyaan tentang estimasi parameter mana yang merupakan "estimasi riil", seseorang harus melihat parameter mana yang "paling dekat" dengan nilai parameter sebenarnya. Apakah "terdekat" berarti estimasi parameter yang meminimalkan bias? Jika demikian, maka estimator kuadrat terkecil tidak bias dalam regresi linier. Apakah terdekat berarti estimasi parameter yang meminimalkan kesalahan kuadrat rata-rata (MSE)? Maka dapat ditunjukkan bahwa ada spesifikasi regresi ridge yang akan memberi Anda perkiraan yang meminimalkan MSE (mirip dengan LASSO, regresi ridge mengecilkan estimasi parameter ke nol tetapi, berbeda dari LASSO, estimasi parameter tidak mencapai nol). Demikian pula,λ). Sebagai ahli statistik, Anda harus menentukan apa yang merupakan estimasi "terbaik" dan melaporkannya (lebih disukai dengan indikasi kepercayaan estimasi) kepada mereka yang tidak berpengalaman dalam statistik. Apa yang "terbaik" mungkin atau mungkin bukan estimasi yang bias.

The glmnetfungsi dalam R melakukan pekerjaan yang baik cukup memilih nilai-nilai yang baik dari dan, dalam ringkasan, memilih melalui cross-validasi dan melaporkan estimasi parameter adalah cara yang masuk akal untuk memperkirakan "nyata" nilai parameter.λλ

Model Bayesian LASSO yang memilih oleh marginal likelihood lebih disukai oleh beberapa orang tetapi saya, mungkin salah, dengan asumsi Anda melakukan model LASSO yang sering.λ

TrynnaDoStat
sumber
Apa yang Anda maksud dengan "bias" di "estimasi parameter yang meminimalkan bias"? Dan apakah saya membaca sisanya dengan benar jika saya membacanya seperti ini: Saya harus memilih model yang memiliki estimasi MSE terendah di luar sampel (yaitu, dalam cross-validation)? Karena punggungan keluar dari pertanyaan karena saya ingin matriks koefisien jarang, melaporkan koefisien laso menyusut adalah cara untuk pergi
mbokulic
@ Mbokulic By bias yang saya maksud bias statistik. Ini mengacu pada kecenderungan proses pengukuran untuk memperkirakan nilai parameter populasi secara berlebihan. Jawaban saya adalah mengatakan itu tergantung apa yang Anda inginkan. Jika Anda tidak ingin bias, tetap dengan regresi linier. Jika Anda setuju dengan bias dan lebih suka meminimalkan MSE, gunakan LASSO dan masukkan due diligence saat memilih . λ
TrynnaDoStat
menarik, saya tidak pernah berpikir seperti itu. Sekali lagi saya harus bertanya apakah saya mengerti Anda dengan benar. Jadi, regresi linier memberi Anda estimasi paling tidak bias dari koefisien populasi (contoh "2,5 poin lebih tinggi" dalam pertanyaan awal saya). Sedangkan laso atau punggung bukit menyesal. meminimalkan MSE out-of-sample. Jika demikian, jika Anda hanya ingin memahami (tidak memprediksi), regresi linier tampaknya lebih baik, meskipun Anda masih ingin menyederhanakan model dengan misalnya, metode bertahap.
mbokulic
jawabannya di sini sangat membantu. Mereka menyarankan bahwa OLS (regresi linier) memiliki kinerja in-sample kulit pohon, sedangkan laso adalah untuk out-of-sampel. Juga, mereka menyarankan bahwa OLS dapat digunakan pada set prediktor terbatas yang dipilih oleh laso. Inilah yang masuk akal untuk tujuan interpretasi saya, bahkan jika perkiraan OLS akan sedikit sesuai.
mbokulic