Baru-baru ini saya menemukan bahwa dalam literatur ekonometrik terapan, ketika berhadapan dengan masalah pemilihan fitur, tidak jarang melakukan LASSO diikuti oleh regresi OLS menggunakan variabel yang dipilih.
Saya bertanya-tanya bagaimana kita memenuhi syarat validitas dari prosedur semacam itu. Apakah ini akan menyebabkan masalah seperti variabel yang dihilangkan? Adakah bukti yang menunjukkan bahwa ini lebih efisien, atau hasilnya lebih dapat diartikan?
Berikut beberapa diskusi terkait:
Menggunakan pohon setelah pemilihan variabel menggunakan Lasso / Random
Jika, seperti yang ditunjukkan, prosedur seperti itu tidak benar secara umum, lalu mengapa masih ada begitu banyak penelitian yang melakukannya? Dapatkah saya mengatakan bahwa itu hanya aturan praktis, solusi kompromi, karena beberapa sifat tidak mudah dari penduga LASSO, dan kesukaan orang terhadap OLS?
Jawaban:
Ada pertanyaan serupa beberapa hari yang lalu yang memiliki referensi yang relevan:
Setidaknya bagi saya makalah ini cukup sulit dibaca karena bukti di balik ini relatif sederhana cukup rumit. Ketika Anda tertarik memperkirakan model seperti
di mana adalah hasil Anda, T i adalah beberapa efek pengobatan yang menarik, dan X i adalah vektor kontrol potensial. Parameter target adalah α . Dengan asumsi bahwa sebagian besar variasi dalam hasil Anda dijelaskan oleh pengobatan dan serangkaian kontrol yang jarang, Belloni et al. (2014) mengembangkan metode seleksi double-robust yang memberikan estimasi titik yang benar dan interval kepercayaan yang valid. Asumsi sparsity ini penting.ysaya Tsaya Xsaya α
Mereka memberikan bukti mengapa ini bekerja dan mengapa Anda mendapatkan interval kepercayaan yang benar, dll. Dari metode ini. Mereka juga menunjukkan bahwa jika Anda hanya melakukan seleksi LASSO pada regresi di atas dan kemudian regresi hasil pada pengobatan dan variabel yang dipilih Anda mendapatkan perkiraan titik yang salah dan interval kepercayaan palsu, seperti yang sudah dikatakan Björn.
Tujuan untuk melakukan ini ada dua: membandingkan model awal Anda, di mana pemilihan variabel dipandu oleh intuisi atau teori, ke model seleksi ganda-kuat memberi Anda gambaran tentang seberapa bagus model pertama Anda. Mungkin model pertama Anda lupa beberapa istilah kuadrat atau interaksi penting dan karenanya menderita bentuk fungsional yang salah ditentukan atau variabel dihilangkan. Kedua, Belloni et al. (2014) metode dapat meningkatkan inferensi pada parameter target Anda karena regressor redundan dihukum dalam prosedur mereka.
sumber
Untuk melakukan pemilihan variabel dan kemudian menjalankan kembali analisis, seolah-olah tidak ada pemilihan variabel yang terjadi dan model yang dipilih telah dimaksudkan sejak awal, biasanya mengarah ke ukuran efek yang berlebihan, nilai-p tidak valid dan interval kepercayaan dengan cakupan di bawah nominal. Mungkin jika ukuran sampel sangat besar dan ada beberapa efek besar dan banyak efek nol, LASSO + OLS mungkin tidak terlalu terpengaruh oleh ini, tetapi selain itu saya tidak dapat melihat pembenaran yang masuk akal dan dalam hal ini LASSO perkiraan juga harus baik-baik saja.
sumber