Saya tahu ini akan memperburuk kesimpulan statistik, tetapi saya benar-benar hanya peduli dengan sedekat mungkin dengan model yang akurat.
Saya memiliki variabel hasil dikotomis, dengan seperangkat besar prediktor dikotomis. Saya pikir saya ingin mencoba menggunakan LASSO untuk memilih variabel mana yang harus saya sertakan dalam model saya, kemudian memasukkan variabel-variabel yang dipilih ke dalam regresi Logit.
Apakah ada sesuatu yang saya abaikan dalam hal kepraktisan pendekatan ini?
model-selection
lasso
logit
EvKohl
sumber
sumber
Jawaban:
Ada paket di R yang disebut glmnet yang dapat ditampung oleh model logistik LASSO untuk Anda! Ini akan lebih mudah daripada pendekatan yang Anda pertimbangkan. Lebih tepatnya, glmnet adalah hibrida antara LASSO dan regresi Ridge tetapi Anda dapat menetapkan parameterα = 1 untuk melakukan model LASSO murni. Karena Anda tertarik pada regresi logistik, Anda akan menetapkan family = "binomial".
Anda dapat membaca lebih lanjut di sini: http://web.stanford.edu/~hastie/glmnet/glmnet_alpha.html#intro
sumber
stata lasso logistic
memberi saya homepages.ucl.ac.uk/~ucakgam/stata.html sebagai hasil pertama.Pertama, tidak ada jaminan bahwa model probabilitas linier akan mendekati model logit dengan sangat baik; akibatnya subset dari variabel yang dipilih untuk satu mungkin kurang tepat untuk yang lain.
Kedua, pemasangan kembali tidak berlaku penyusutan sama sekali, meskipun pemilihan variabel yang terjadi pada langkah pertama; beresiko salah kalibrasi serius & mungkin sedikit kehilangan diskriminasi.
Anda mungkin dapat memvalidasi prosedur pada set data tertentu, tetapi tampaknya tidak aman secara umum, atau untuk menawarkan keuntungan apa pun dibandingkan dengan regresi logistik bertahap. Dan tentu saja itu tidak perlu; LASSOL.1 Denda normal dapat digunakan untuk penyusutan & seleksi dalam regresi logistik.
sumber