[Pertanyaan serupa ditanyakan di sini tanpa jawaban]
Saya telah cocok dengan model regresi logistik dengan L1 regularisasi (regresi logistik Lasso) dan saya ingin menguji koefisien yang dipasang untuk signifikansi dan mendapatkan nilai-p mereka. Saya tahu tes Wald (misalnya) adalah pilihan untuk menguji signifikansi koefisien individu dalam regresi penuh tanpa regularisasi, tetapi dengan Lasso saya pikir masalah lebih lanjut muncul yang tidak memungkinkan untuk menerapkan formula Wald biasa. Misalnya, estimasi varians yang diperlukan untuk pengujian tidak mengikuti ekspresi yang biasa. Kertas Lasso asli
http://statweb.stanford.edu/~tibs/lasso/lasso.pdf
menyarankan prosedur berbasis bootstrap untuk memperkirakan varians koefisien, yang (sekali lagi, saya pikir) mungkin diperlukan untuk pengujian (bagian 2.5, paragraf terakhir halaman 272 dan awal 273):
Salah satu pendekatan adalah melalui bootstrap: dapat diperbaiki atau kami dapat mengoptimalkan untuk setiap sampel bootstrap. Memperbaiki analog dengan memilih subset terbaik ( fitur ) dan kemudian menggunakan standar kesalahan kuadrat terkecil untuk subset tersebutt t
Apa yang saya pahami adalah: paskan regresi Lasso berulang kali ke seluruh dataset hingga kami menemukan nilai optimal untuk parameter regularisasi (ini bukan bagian dari bootstrap), dan kemudian gunakan hanya fitur yang dipilih oleh Lasso agar sesuai dengan regresi OLS ke subsamples dari data dan menerapkan rumus biasa untuk menghitung varian dari masing-masing regresi tersebut. (Lalu apa yang harus saya lakukan dengan semua varian dari masing-masing koefisien untuk mendapatkan estimasi varian akhir dari masing-masing koefisien?)
Selain itu, apakah benar menggunakan tes signifikansi biasa (misalnya tes Wald yang menggunakan estimasi beta dan varian) dengan estimasi Lasso dari koefisien dan varian estimasi bootstrap? Saya cukup yakin tidak, tetapi bantuan apa pun (gunakan tes yang berbeda, gunakan pendekatan yang lebih mudah, apa pun ...) lebih dari diterima.
Menurut jawaban di sini saya menduga inferensi dan nilai-p tidak dapat diperoleh. Dalam kasus saya, nilai-p adalah persyaratan eksternal (meskipun penggunaan regularisasi L1 adalah pilihan saya).
Terima kasih banyak
EDIT Bagaimana jika saya cocok dengan regresi logistik OLS hanya menggunakan variabel yang dipilih oleh menjalankan sebelumnya dari regresi logistik Lasso? Rupanya (lihat di sini ),
Tidak perlu menjalankan model lagi setelah melakukan cross-validation (Anda baru saja mendapatkan koefisien dari output cv.glmnet), dan bahkan jika Anda memasukkan model regresi logistik baru tanpa penalti maka Anda mengalahkan tujuan menggunakan laso
Tetapi bagaimana jika saya melakukan ini dengan tujuan tunggal untuk dapat menghitung nilai-p sambil menjaga jumlah variabel tetap rendah? Apakah ini pendekatan yang sangat kotor? :-)
Jawaban:
Masalah dengan menggunakan tes signifikansi biasa, adalah bahwa mereka menganggap nol yaitu bahwa ada variabel acak, tanpa hubungan dengan variabel hasil. Namun apa yang Anda miliki dengan laso, adalah sekelompok variabel acak, dari mana Anda memilih yang terbaik dengan laso, juga beta menyusut. Jadi Anda tidak dapat menggunakannya, hasilnya akan menjadi bias.
Sejauh yang saya tahu, bootstrap tidak digunakan untuk mendapatkan estimasi varians, tetapi untuk mendapatkan probabilitas variabel yang dipilih. Dan itu adalah nilai-p Anda. Periksa buku gratis Hasie, Statistical Learning with Sparsity, bab 6 berbicara tentang hal yang sama. http://web.stanford.edu/~hastie/StatLearnSparsity/
Juga periksa makalah ini untuk beberapa cara lain untuk mendapatkan nilai-p dari lasso https://arxiv.org/pdf/1408.4026.pdf Mungkin ada lebih banyak
sumber
Untungnya, ada banyak kemajuan dalam beberapa tahun terakhir dalam mengembangkan metode inferensi yang memperhitungkan pasca seleksi. Beberapa referensi yang relevan untuk kasus Anda adalah: http://projecteuclid.org/euclid.aos/1460381681 dan, https://arxiv.org/pdf/1602.07358.pdf . Teknik yang dibahas dalam referensi ini diimplementasikan dalam paket R selectiveInference- https://cran.r-project.org/web/packages/selectiveInference/index.html . Paket SelectiveInference harus menghasilkan interval kepercayaan yang valid yang Anda butuhkan.
sumber