Interpretasi dari koefisien regresi LASSO

12

Saat ini saya sedang mengerjakan pembuatan model prediksi untuk hasil biner pada dataset dengan ~ 300 variabel dan 800 pengamatan. Saya telah membaca banyak di situs ini tentang masalah yang terkait dengan regresi bertahap dan mengapa tidak menggunakannya.

Saya telah membaca regresi LASSO dan kemampuannya untuk pemilihan fitur dan telah berhasil mengimplementasikannya dengan menggunakan paket "caret" dan "glmnet".

Saya dapat mengekstraksi koefisien model dengan optimal lambdadan alphadari "caret"; Namun, saya tidak terbiasa dengan cara menafsirkan koefisien.

  • Apakah koefisien LASSO ditafsirkan dalam metode yang sama dengan regresi logistik?
  • Apakah pantas menggunakan fitur yang dipilih dari LASSO dalam regresi logistik?

EDIT

Interpretasi dari koefisien, seperti pada koefisien eksponensial dari regresi LASSO sebagai log odds untuk 1 unit perubahan koefisien sambil menahan semua koefisien lainnya konstan.

https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regress/

Michael Luu
sumber
Bisakah Anda mengisi sedikit apa yang Anda maksud dengan "ditafsirkan dengan cara yang sama dengan regresi logistik"? Saya akan sangat berguna untuk mengetahui dengan tepat interpretasi apa yang ingin Anda generalisasi.
Matthew Drury
1
@Matthew Drury - Terima kasih banyak telah meluangkan waktu dalam membantu saya, karena kursus saya tidak pernah melewati LASSO. Secara umum, dari apa yang saya diajarkan selama kuliah pascasarjana, koefisien eksponensial dari regresi logistik menghasilkan peluang log dari peningkatan 1 unit dalam koefisien sambil menahan semua koefisien lainnya konstan.
Michael Luu
1
αλα
Sejauh yang saya tahu, pengujian signifikansi untuk koefisien belum diperkenalkan di sebagian besar implementasi LASSO. Jadi mungkinkah perbedaannya bukan bahwa sementara kita dapat menentukan variabel yang signifikan secara statistik dalam OLS, kita tidak dapat melakukannya dengan LASSO kecuali membuat pernyataan yang lebih lemah bahwa koefisien LASSO dari variabel terkait yang dipilih adalah variabel "penting" untuk dipertimbangkan?
Semoga berhasil

Jawaban:

13

Apakah koefisien LASSO ditafsirkan dalam metode yang sama dengan regresi logistik?

Biarkan saya ulangi: Apakah koefisien LASSO ditafsirkan dengan cara yang sama seperti, misalnya, koefisien kemungkinan maksimum OLS dalam regresi logistik?

LASSO (metode estimasi penalti) bertujuan untuk memperkirakan jumlah yang sama (koefisien model) seperti, katakanlah, kemungkinan maksimum OLS (metode yang tidak diterapkan). Modelnya sama, dan interpretasinya tetap sama. Nilai numerik dari LASSO biasanya akan berbeda dari yang dari kemungkinan maksimum OLS : beberapa akan lebih dekat ke nol, yang lain akan persis nol. Jika sejumlah hukuman yang masuk akal telah diterapkan, estimasi LASSO akan lebih mendekati nilai sebenarnya daripada estimasi kemungkinan maksimum OLS , yang merupakan hasil yang diinginkan.

Apakah pantas menggunakan fitur yang dipilih dari LASSO dalam regresi logistik?

Tidak ada masalah inheren dengan itu, tetapi Anda dapat menggunakan LASSO tidak hanya untuk pemilihan fitur tetapi juga untuk estimasi koefisien. Seperti yang saya sebutkan di atas, perkiraan LASSO mungkin lebih akurat daripada, katakanlah, perkiraan kemungkinan maksimum OLS .

Richard Hardy
sumber
Terima kasih banyak atas tanggapan ini! Masuk akal! Maafkan pengetahuan saya yang terbatas dalam hal ini. Seperti yang telah Anda sebutkan di komentar lain bahwa saya mungkin menggunakan jaring elastis daripada LASSO via caret karena ia memilih lambda dan alpha yang optimal. Apakah hal yang sama berlaku untuk koefisien?
Michael Luu
Ya tentu saja. Logika dasarnya tetap sama.
Richard Hardy
Anda menulis "interpretasi tetap sama". Bisakah Anda membantu saya memahami hal ini? Tampaknya saya bahwa interpretasi koefisien OLS dalam pengaturan regresi berganda bergantung pada plot regresi parsial . Namun, properti ini tidak berlaku untuk koefisien laso, membuat saya percaya interpretasi akan berbeda.
user795305
1
@ Ben, Jika kita mengasumsikan model statistik yang mendasari, kita dapat memperkirakan parameternya dengan cara yang berbeda, dua yang populer adalah OLS dan laso. Koefisien estimasi menargetkan target yang sama, dan keduanya memiliki beberapa kesalahan estimasi (yang, jika kuadrat, dapat didekomposisi menjadi bias dan varians), jadi dalam hal ini interpretasi mereka adalah sama. Sekarang tentu saja metodenya tidak sama, sehingga Anda mendapatkan estimasi nilai koefisien yang berbeda. Jika Anda peduli tentang metode dan interpretasi aljabar dan geometris mereka, maka ini tidak sama. Tetapi interpretasi materi pelajaran adalah sama.
Richard Hardy
(1,,p)T