Saya sedang melakukan analisis di mana tujuan utamanya adalah untuk memahami data. Dataset cukup besar untuk cross-validation (10k), dan prediktor menyertakan variabel kontinu dan dummy, dan hasilnya kontinu. Tujuan utama adalah untuk melihat apakah masuk akal untuk mengeluarkan beberapa prediktor, agar model lebih mudah diinterpretasikan.
Pertanyaan:
Pertanyaan saya adalah "vars yang menjelaskan hasil dan merupakan bagian 'cukup kuat' dari penjelasan itu". Tetapi untuk memilih parameter lambda untuk laso, Anda menggunakan validasi silang, yaitu validitas prediktif sebagai kriteria. Ketika melakukan inferensi, apakah validitas prediktif merupakan proxy yang cukup baik untuk pertanyaan umum yang saya tanyakan?
Katakanlah LASSO hanya menyimpan 3 dari 8 prediksi. Dan sekarang saya bertanya pada diri sendiri: "apa dampaknya terhadap hasilnya". Sebagai contoh, saya menemukan perbedaan gender. Setelah penyusutan laso, koefisien menunjukkan bahwa wanita mendapat skor 1 poin lebih tinggi daripada pria. Tetapi tanpa penyusutan (yaitu, pada dataset aktual), mereka mendapat skor 2,5 poin lebih tinggi.
- Mana yang akan saya ambil sebagai efek gender "nyata" saya? Pergi hanya dengan validitas prediktif, itu akan menjadi koefisien menyusut.
- Atau dalam konteks, katakan bahwa saya sedang menulis laporan untuk orang yang tidak berpengalaman dalam statistik. Koefisien mana yang akan saya laporkan kepada mereka?
sumber
Jawaban:
Jika tujuan Anda adalah memperkirakan parameter secara akurat dalam model Anda, maka seberapa dekat Anda dengan model sebenarnya adalah bagaimana Anda harus memilih model Anda. Validitas prediktif melalui cross-validation adalah salah satu cara untuk melakukan ini dan merupakan pilihan untuk memilih dalam regresi LASSO.∗ λ
Sekarang, untuk menjawab pertanyaan tentang estimasi parameter mana yang merupakan "estimasi riil", seseorang harus melihat parameter mana yang "paling dekat" dengan nilai parameter sebenarnya. Apakah "terdekat" berarti estimasi parameter yang meminimalkan bias? Jika demikian, maka estimator kuadrat terkecil tidak bias dalam regresi linier. Apakah terdekat berarti estimasi parameter yang meminimalkan kesalahan kuadrat rata-rata (MSE)? Maka dapat ditunjukkan bahwa ada spesifikasi regresi ridge yang akan memberi Anda perkiraan yang meminimalkan MSE (mirip dengan LASSO, regresi ridge mengecilkan estimasi parameter ke nol tetapi, berbeda dari LASSO, estimasi parameter tidak mencapai nol). Demikian pula,λ ). Sebagai ahli statistik, Anda harus menentukan apa yang merupakan estimasi "terbaik" dan melaporkannya (lebih disukai dengan indikasi kepercayaan estimasi) kepada mereka yang tidak berpengalaman dalam statistik. Apa yang "terbaik" mungkin atau mungkin bukan estimasi yang bias.
Theλ λ
glmnet
fungsi dalam R melakukan pekerjaan yang baik cukup memilih nilai-nilai yang baik dari dan, dalam ringkasan, memilih melalui cross-validasi dan melaporkan estimasi parameter adalah cara yang masuk akal untuk memperkirakan "nyata" nilai parameter.sumber