Saya ingin mencari prediktor untuk variabel dependen kontinu dari 30 variabel independen. Saya menggunakan regresi Lasso seperti yang diterapkan dalam paket glmnet di R. Berikut adalah beberapa kode dummy:
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
Pertanyaan saya adalah bagaimana menafsirkan output:
Apakah benar mengatakan bahwa dalam hasil akhir semua prediktor yang menunjukkan koefisien berbeda dari nol terkait dengan variabel dependen?
Apakah itu merupakan laporan yang cukup dalam konteks publikasi jurnal? Atau itu diharapkan untuk memberikan statistik uji untuk signifikansi dari koefisien? (Konteksnya adalah genetika manusia)
Apakah masuk akal untuk menghitung nilai p atau statistik uji lainnya untuk mengklaim signifikansi? Bagaimana itu mungkin? Apakah prosedur diimplementasikan dalam R?
Apakah plot regresi sederhana (titik data diplot dengan kecocokan linear) untuk setiap prediktor menjadi cara yang cocok untuk memvisualisasikan data ini?
Mungkin seseorang dapat memberikan beberapa contoh mudah dari artikel yang diterbitkan yang menunjukkan penggunaan Lasso dalam konteks beberapa data nyata & bagaimana melaporkannya dalam jurnal?
cv
untuk langkah prediksi juga?Jawaban:
Pemahaman saya adalah bahwa Anda tidak dapat mengatakan banyak tentang variabel mana yang "penting" atau memiliki efek "nyata" berdasarkan apakah koefisiennya bukan nol. Untuk memberikan contoh ekstrem, jika Anda memiliki dua prediktor yang sepenuhnya collinear, laso akan memilih salah satu dari mereka secara acak untuk mendapatkan bobot penuh dan yang lain akan mendapatkan bobot nol.
Makalah ini , yang termasuk salah satu penulis glmnet, menyajikan beberapa analisis berbasis glmnet (lihat khususnya: Pendahuluan, Bagian 2.3 dan 4.3, dan Tabel 4 dan 5). Melihat sekilas, sepertinya mereka tidak menghitung nilai-P langsung dari model glmnet. Mereka memang menghitung dua jenis nilai-P dengan menggunakan metode lain, tetapi sepertinya mereka tidak sepenuhnya mempercayai keduanya.
Saya tidak 100% yakin apa yang Anda sarankan dalam hal metode merencanakan, tapi saya pikir itu terdengar masuk akal.
Semoga itu bisa membantu.
sumber
Saya hanya ingin menunjukkan bahwa ada pekerjaan terbaru yang mencoba mengembangkan statistik uji khusus untuk LASSO, yang memperhitungkan pemilihan fitur yang dilakukan:
Tes signifikansi untuk laso. Richard Lockhart, Jonathan Taylor, Ryan J. Tibshirani, Robert Tibshirani. http://arxiv.org/abs/1301.7161
Saya belum melihat ini digunakan dalam pekerjaan yang diterapkan namun, sedangkan bootstrap jelas digunakan.
sumber
Mengenai inferensi untuk LASSO atau model jaring elastis telah melihat paket CRAN selectiveInference dan hdi , mereka melakukan hal itu sementara memperhitungkan langkah pemilihan variabel!
sumber