Bagaimana masuk akal untuk melakukan OLS setelah pemilihan variabel LASSO?

20

Baru-baru ini saya menemukan bahwa dalam literatur ekonometrik terapan, ketika berhadapan dengan masalah pemilihan fitur, tidak jarang melakukan LASSO diikuti oleh regresi OLS menggunakan variabel yang dipilih.

Saya bertanya-tanya bagaimana kita memenuhi syarat validitas dari prosedur semacam itu. Apakah ini akan menyebabkan masalah seperti variabel yang dihilangkan? Adakah bukti yang menunjukkan bahwa ini lebih efisien, atau hasilnya lebih dapat diartikan?

Berikut beberapa diskusi terkait:

Pilihan variabel dengan LASSO

Menggunakan pohon setelah pemilihan variabel menggunakan Lasso / Random

Jika, seperti yang ditunjukkan, prosedur seperti itu tidak benar secara umum, lalu mengapa masih ada begitu banyak penelitian yang melakukannya? Dapatkah saya mengatakan bahwa itu hanya aturan praktis, solusi kompromi, karena beberapa sifat tidak mudah dari penduga LASSO, dan kesukaan orang terhadap OLS?

ZLIU
sumber
Bisakah Anda menjelaskan apa artinya melakukan "regresi OLS" setelah melakukan LASSO? Apa, khususnya, langkah OLS ini mencoba memperkirakan bahwa LASSO belum memperkirakan?
whuber
2
Ada beberapa kertas kerja terbaru tentang masalah ini. Banyak yang tampaknya memerlukan asumsi bahwa himpunan variabel yang valid jarang. Jika asumsi itu tidak berlaku, maka ya variabel yang dihilangkan akan ada. Dan orang-orang menyukai ols karena mereka ingin menafsirkan koin sebagai tidak bias dari sampel efek marginal. Ekonometrik cukup terjebak dalam paradigma itu.
generic_user
4
Dalam buku LASSO terbaru ini (online gratis), bagian 11.4 muncul untuk mengatasi masalah ini. Saya belum membaca ini secara rinci, tetapi pendahuluan berakhir dengan mengatakan "Mengingat [perkiraan LASSO] yang dengan benar memulihkan dukungan , kita dapat memperkirakan sangat baik ... hanya dengan melakukan regresi kuadrat-biasa yang terbatas pada subset ini. " β^ββ
GeoMatt22

Jawaban:

12

Ada pertanyaan serupa beberapa hari yang lalu yang memiliki referensi yang relevan:

  • Belloni, A., Chernozhukov, V., dan Hansen, C. (2014) "Inferensi pada Efek Perawatan setelah Seleksi antara Kontrol Dimensi Tinggi", Review of Economic Studies, 81 (2), hlm. 608-50 ( tautan )

Setidaknya bagi saya makalah ini cukup sulit dibaca karena bukti di balik ini relatif sederhana cukup rumit. Ketika Anda tertarik memperkirakan model seperti

ysaya=αTsaya+Xsayaβ+ϵsaya

di mana adalah hasil Anda, T i adalah beberapa efek pengobatan yang menarik, dan X i adalah vektor kontrol potensial. Parameter target adalah α . Dengan asumsi bahwa sebagian besar variasi dalam hasil Anda dijelaskan oleh pengobatan dan serangkaian kontrol yang jarang, Belloni et al. (2014) mengembangkan metode seleksi double-robust yang memberikan estimasi titik yang benar dan interval kepercayaan yang valid. Asumsi sparsity ini penting.ysayaTsayaXsayaα

Xsayaysaya

  1. ysayaXsaya
  2. TsayaXsaya
  3. ysayaTsaya

Mereka memberikan bukti mengapa ini bekerja dan mengapa Anda mendapatkan interval kepercayaan yang benar, dll. Dari metode ini. Mereka juga menunjukkan bahwa jika Anda hanya melakukan seleksi LASSO pada regresi di atas dan kemudian regresi hasil pada pengobatan dan variabel yang dipilih Anda mendapatkan perkiraan titik yang salah dan interval kepercayaan palsu, seperti yang sudah dikatakan Björn.

Tujuan untuk melakukan ini ada dua: membandingkan model awal Anda, di mana pemilihan variabel dipandu oleh intuisi atau teori, ke model seleksi ganda-kuat memberi Anda gambaran tentang seberapa bagus model pertama Anda. Mungkin model pertama Anda lupa beberapa istilah kuadrat atau interaksi penting dan karenanya menderita bentuk fungsional yang salah ditentukan atau variabel dihilangkan. Kedua, Belloni et al. (2014) metode dapat meningkatkan inferensi pada parameter target Anda karena regressor redundan dihukum dalam prosedur mereka.

Andy
sumber
Perkiraan titik "Benar"?
Richard Hardy
3

Untuk melakukan pemilihan variabel dan kemudian menjalankan kembali analisis, seolah-olah tidak ada pemilihan variabel yang terjadi dan model yang dipilih telah dimaksudkan sejak awal, biasanya mengarah ke ukuran efek yang berlebihan, nilai-p tidak valid dan interval kepercayaan dengan cakupan di bawah nominal. Mungkin jika ukuran sampel sangat besar dan ada beberapa efek besar dan banyak efek nol, LASSO + OLS mungkin tidak terlalu terpengaruh oleh ini, tetapi selain itu saya tidak dapat melihat pembenaran yang masuk akal dan dalam hal ini LASSO perkiraan juga harus baik-baik saja.

Björn
sumber
1
Tetapi mengapa model kedua dimulai dari awal seolah-olah tidak ada pemilihan variabel yang terjadi? Tidakkah LASSO memilih variabel penjelas dengan daya prediksi terbaik? Btw saya pikir untuk melakukan hal-hal LASSO variabel matriks menjadi glm lagi. Sekarang saya mengerti bahwa LASSO adalah per regresi.
SIslam