Saya menggunakan Lasso untuk pemilihan fitur dalam pengaturan dimensi yang relatif rendah (n >> p). Setelah memasang model Lasso, saya ingin menggunakan kovariat dengan koefisien bukan nol agar sesuai dengan model tanpa penalti. Saya melakukan ini karena saya ingin perkiraan yang tidak bias yang tidak dapat diberikan oleh Lasso kepada saya. Saya juga ingin nilai-p dan interval kepercayaan untuk estimasi yang tidak bias.
Saya kesulitan menemukan literatur tentang topik ini. Sebagian besar literatur yang saya temukan adalah tentang menempatkan interval kepercayaan pada perkiraan Lasso, bukan model yang dipasang kembali.
Dari apa yang saya baca, cukup dengan mereparasi model menggunakan seluruh dataset mengarah ke kesalahan p-nilai / std kecil yang tidak realistis. Saat ini, pemisahan sampel (dengan gaya Wasserman dan Roeder (2014) atau Meinshausen et al. (2009)) tampaknya merupakan tindakan yang baik, tetapi saya mencari lebih banyak saran.
Adakah yang mengalami masalah ini? Jika demikian, bisakah Anda memberikan beberapa saran.
Jawaban:
Untuk menambah tanggapan sebelumnya. Anda pasti harus memeriksa karya terbaru dari Tibshirani dan rekannya. Mereka telah mengembangkan kerangka kerja yang ketat untuk menyimpulkan nilai p yang dikoreksi seleksi dan interval kepercayaan untuk metode tipe laso dan juga menyediakan paket-R.
Lihat:
Lee, Jason D., et al. "Inferensi pasca-seleksi yang tepat, dengan aplikasi pada laso." The Annals of Statistics 44.3 (2016): 907-927. ( https://projecteuclid.org/euclid.aos/1460381681 )
Taylor, Jonathan, dan Robert J. Tibshirani. "Pembelajaran statistik dan inferensi selektif." Prosiding National Academy of Sciences 112.25 (2015): 7629-7634.
Paket-R:
https://cran.r-project.org/web/packages/selectiveInference/index.html
sumber
Secara umum, refitting tanpa penalti setelah melakukan pemilihan variabel melalui Lasso dianggap "curang" karena Anda telah melihat data dan nilai p dan interval kepercayaan yang dihasilkan tidak valid dalam arti biasa.
Makalah ini sangat baru melihat apa yang ingin Anda lakukan, dan menjelaskan kondisi di mana pas laso, memilih variabel penting, dan refitting tanpa penalti laso mengarah ke validhal -nilai dan interval kepercayaan. Alasan intuitif mereka adalah itu
Jadi, mengintip data dua kali bukanlah masalah. Anda akan perlu melihat apakah untuk masalah Anda kondisi yang dinyatakan dalam tempat kertas atau tidak.
(Ada banyak referensi berguna di koran juga)
Referensi:
Zhao, S., Shojaie, A., & Witten, D. (2017). Dalam membela yang tidak dapat dipertahankan: Pendekatan yang sangat naif untuk inferensi dimensi tinggi. Diperoleh dari: https://arxiv.org/pdf/1705.05543.pdf
sumber
Saya ingin menambahkan beberapa makalah dari literatur pembelajaran mesin orthogonal / ganda yang menjadi populer dalam literatur Applied Econometrics.
Belloni, Alexandre, Victor Chernozhukov, dan Christian Hansen. "Kesimpulan tentang efek pengobatan setelah pemilihan di antara kontrol dimensi tinggi." Tinjauan Studi Ekonomi 81.2 (2014): 608-650.
Makalah ini membahas properti teoritis dari estimasi OLS tentang pengaruh variabel setelah memilih kontrol "lain" menggunakan LASSO.
Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Pembelajaran mesin ganda / debiased untuk parameter perawatan dan struktural, The Econometrics Journal, Volume 21, Edisi 1, 1 Februari 2018, Halaman C1 – C68 , https://doi.org/10.1111/ectj.12097
Ini mengembangkan teori komprehensif untuk menggunakan sejumlah metode non-parametrik (algoritma ML) untuk kontrol non-linear untuk parameter gangguan dimensi tinggi (perancu) dan kemudian mempelajari dampak dari kovariat tertentu pada hasil. Mereka berurusan dengan kerangka kerja parsial-linier dan kerangka kerja yang sepenuhnya parametrik. Mereka juga mempertimbangkan situasi di mana variabel bunga dikacaukan.
sumber