Inferensi setelah menggunakan Lasso untuk pemilihan variabel

17

Saya menggunakan Lasso untuk pemilihan fitur dalam pengaturan dimensi yang relatif rendah (n >> p). Setelah memasang model Lasso, saya ingin menggunakan kovariat dengan koefisien bukan nol agar sesuai dengan model tanpa penalti. Saya melakukan ini karena saya ingin perkiraan yang tidak bias yang tidak dapat diberikan oleh Lasso kepada saya. Saya juga ingin nilai-p dan interval kepercayaan untuk estimasi yang tidak bias.

Saya kesulitan menemukan literatur tentang topik ini. Sebagian besar literatur yang saya temukan adalah tentang menempatkan interval kepercayaan pada perkiraan Lasso, bukan model yang dipasang kembali.

Dari apa yang saya baca, cukup dengan mereparasi model menggunakan seluruh dataset mengarah ke kesalahan p-nilai / std kecil yang tidak realistis. Saat ini, pemisahan sampel (dengan gaya Wasserman dan Roeder (2014) atau Meinshausen et al. (2009)) tampaknya merupakan tindakan yang baik, tetapi saya mencari lebih banyak saran.

Adakah yang mengalami masalah ini? Jika demikian, bisakah Anda memberikan beberapa saran.

Ya
sumber
Saya tidak mengerti mengapa harus menjadi masalah jika estimator laso bias selama interval kepercayaan memiliki (setidaknya asimptotik) cakupan yang benar. Apakah ini satu-satunya alasan mengapa Anda ingin menyesuaikan perkiraan OLS pada dukungan yang diperoleh oleh laso?
user795305
Mungkin saya salah paham dengan apa yang saya baca, tetapi bukankah liputan asymptotically yang benar merujuk pada estimasi yang bias, bukan estimasi yang jarang tapi tidak bias?
EliK
1
Saya tidak yakin apa yang Anda maksud dengan perkiraan "benar jarang tapi tidak bias", tetapi jika Anda tahu perkiraan laso memiliki interval kepercayaan dengan cakupan yang benar asimptotik, seharusnya tidak ada lagi yang harus dilakukan. Makalah yang baru saja ditautkan oleh Greenparker (+1) adalah yang sangat menarik (dan yang paling baru yang saya tahu tentang topik ini) yang membahas (sebagian) bagaimana Anda dapat mengembangkan interval kepercayaan yang benar asimptotik pada laso kemudian koefisien ol. Saya mencoba menunjukkan bahwa Anda tidak perlu mencocokkan OLS untuk mendapatkan koefisien yang tidak bias, karena ketidakberpihakan tidak masalah.
user795305
Saya pikir saya telah salah paham. Cakupan yang benar asimptotik yang Anda maksud adalah sehubungan dengan parameter sebenarnya. Jadi meskipun Lasso memberikan koefisien bias, kita dapat membangun interval kepercayaan yang memiliki cakupan yang benar untuk parameter sebenarnya?
EliK
2
Karena Anda telah memilih model, Anda tidak akan memiliki estimasi yang tidak berbasis jika Anda memperkirakan tanpa Lasso. Koefisien dari istilah-istilah dalam model setelah select-variable-then-fit-via-OLS sebenarnya akan menjadi bias dari 0 (seperti bentuk-bentuk pemilihan variabel lainnya). Sejumlah kecil penyusutan sebenarnya dapat mengurangi bias.
Glen_b -Reinstate Monica

Jawaban:

12

Untuk menambah tanggapan sebelumnya. Anda pasti harus memeriksa karya terbaru dari Tibshirani dan rekannya. Mereka telah mengembangkan kerangka kerja yang ketat untuk menyimpulkan nilai p yang dikoreksi seleksi dan interval kepercayaan untuk metode tipe laso dan juga menyediakan paket-R.

Lihat:

Lee, Jason D., et al. "Inferensi pasca-seleksi yang tepat, dengan aplikasi pada laso." The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )

Taylor, Jonathan, dan Robert J. Tibshirani. "Pembelajaran statistik dan inferensi selektif." Prosiding National Academy of Sciences 112.25 (2015): 7629-7634.

Paket-R:

https://cran.r-project.org/web/packages/selectiveInference/index.html

B. Schubert
sumber
17

Secara umum, refitting tanpa penalti setelah melakukan pemilihan variabel melalui Lasso dianggap "curang" karena Anda telah melihat data dan nilai p dan interval kepercayaan yang dihasilkan tidak valid dalam arti biasa.

Makalah ini sangat baru melihat apa yang ingin Anda lakukan, dan menjelaskan kondisi di mana pas laso, memilih variabel penting, dan refitting tanpa penalti laso mengarah ke validhal-nilai dan interval kepercayaan. Alasan intuitif mereka adalah itu

set variabel yang dipilih oleh laso adalah deterministik dan non-data tergantung dengan probabilitas tinggi.

Jadi, mengintip data dua kali bukanlah masalah. Anda akan perlu melihat apakah untuk masalah Anda kondisi yang dinyatakan dalam tempat kertas atau tidak.

(Ada banyak referensi berguna di koran juga)


Referensi:

Zhao, S., Shojaie, A., & Witten, D. (2017). Dalam membela yang tidak dapat dipertahankan: Pendekatan yang sangat naif untuk inferensi dimensi tinggi. Diperoleh dari: https://arxiv.org/pdf/1705.05543.pdf

Greenparker
sumber
9
+1 Perlu dicatat, bahwa penulis secara eksplisit tidak merekomendasikan pendekatan mereka kecuali "dalam pengaturan data yang sangat besar": "Kami tidak menganjurkan menerapkan ... pendekatan yang dijelaskan di atas di sebagian besar pengaturan analisis data praktis: kami yakin bahwa dalam prakteknya ... pendekatan ini akan berkinerja buruk ketika ukuran sampel kecil atau sedang, dan / atau asumsi tidak terpenuhi "(pada hal. 27). Sebagai catatan, makalah ini adalah Zhao, Shojaie, dan Witten, In Defence of the Unefensible: Pendekatan yang Sangat Naif terhadap Inferensi Dimensi Tinggi (16 Mei 2017).
whuber
@whuber Dan juga perlu diingat makalah ini ada di arxiv.org - tidak yakin apakah ini sudah ditinjau sejawat sehingga mungkin ada masalah lain dengan metodologi penulis.
RobertF
0

Saya ingin menambahkan beberapa makalah dari literatur pembelajaran mesin orthogonal / ganda yang menjadi populer dalam literatur Applied Econometrics.

  • Belloni, Alexandre, Victor Chernozhukov, dan Christian Hansen. "Kesimpulan tentang efek pengobatan setelah pemilihan di antara kontrol dimensi tinggi." Tinjauan Studi Ekonomi 81.2 (2014): 608-650.

    Makalah ini membahas properti teoritis dari estimasi OLS tentang pengaruh variabel setelah memilih kontrol "lain" menggunakan LASSO.

  • Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Pembelajaran mesin ganda / debiased untuk parameter perawatan dan struktural, The Econometrics Journal, Volume 21, Edisi 1, 1 Februari 2018, Halaman C1 – C68 , https://doi.org/10.1111/ectj.12097

    Ini mengembangkan teori komprehensif untuk menggunakan sejumlah metode non-parametrik (algoritma ML) untuk kontrol non-linear untuk parameter gangguan dimensi tinggi (perancu) dan kemudian mempelajari dampak dari kovariat tertentu pada hasil. Mereka berurusan dengan kerangka kerja parsial-linier dan kerangka kerja yang sepenuhnya parametrik. Mereka juga mempertimbangkan situasi di mana variabel bunga dikacaukan.

FightMilk
sumber