Bagaimana mengukur Pentingnya Relatif Variabel dalam Regresi Logistik dalam hal p?

11

Misalkan model regresi logistik digunakan untuk memprediksi apakah seorang pembelanja online akan membeli produk (hasil: pembelian), setelah dia mengklik satu set iklan online (prediktor: Ad1, Ad2, dan Ad3).

Hasilnya adalah variabel biner: 1 (dibeli) atau 0 (tidak murni). Prediktor juga merupakan variabel biner: 1 (diklik) atau 0 (tidak diklik). Jadi semua variabel berada pada skala yang sama.

Jika koefisien yang dihasilkan dari Ad1, Ad2, dan Ad3 adalah 0,1, 0,2, dan 03, kita dapat menyimpulkan bahwa Ad3 lebih penting daripada Ad2, dan Ad2 lebih penting daripada Ad1. Lebih lanjut, karena semua variabel berada pada skala yang sama, koefisien terstandarisasi dan tidak terstandarisasi harus sama, dan kita dapat menyimpulkan bahwa Ad2 dua kali lebih penting daripada Ad1 dalam hal pengaruhnya terhadap level logit (log-odds).

Tetapi dalam praktiknya kita lebih peduli tentang bagaimana membandingkan dan menafsirkan kepentingan relatif variabel dalam hal tingkat p (probabilitas pembelian), bukan logit (log-odds).

Dengan demikian pertanyaannya adalah: Apakah ada pendekatan untuk mengukur kepentingan relatif variabel-variabel ini dalam hal p?

xyhzc
sumber
Saya menemukan artikel ini bermanfaat. Ini menggambarkan dengan baik enam metode berbeda yang dapat digunakan untuk menentukan kepentingan prediktor dari model regresi logistik bersama dengan alat peraga & kontra yang terkait dengan masing-masing metode.
gchaks

Jawaban:

5

Untuk model linier Anda dapat menggunakan nilai absolut dari t-statistik untuk setiap parameter model.

Anda juga dapat menggunakan sesuatu seperti forrest acak dan mendapatkan daftar fitur yang sangat penting.

Jika Anda menggunakan R check out ( http://caret.r-forge.r-project.org/varimp.html ), jika Anda menggunakan python check out ( http://scikit-learn.org/stable/auto_examples /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )

EDIT:

Karena logit tidak memiliki cara langsung untuk melakukan ini, Anda dapat menggunakan kurva ROC untuk setiap prediktor.

Untuk klasifikasi, analisis kurva ROC dilakukan pada setiap prediktor. Untuk dua masalah kelas, serangkaian cutoff diterapkan pada data prediktor untuk memprediksi kelas. Sensitivitas dan spesifisitas dihitung untuk setiap cutoff dan kurva ROC dihitung. Aturan trapesium digunakan untuk menghitung area di bawah kurva ROC. Area ini digunakan sebagai ukuran variabel penting

Contoh cara kerjanya di R adalah:

library(caret)
mydata <- data.frame(y = c(1,0,0,0,1,1),
                 x1 = c(1,1,0,1,0,0),
                 x2 = c(1,1,1,0,0,1),
                 x3 = c(1,0,1,1,0,0))

fit <- glm(y~x1+x2+x3,data=mydata,family=binomial())
summary(fit)

varImp(fit, scale = FALSE)
mike1886
sumber
1
Terima kasih untuk balasan Anda! ya itu mudah untuk model linear dan hutan acak, apakah Anda punya ide bagaimana melakukannya dalam kasus Regresi Logistik? Terima kasih banyak!
xyhzc
Lihat edit di atas.
mike1886
Tampaknya pertanyaan tentang perbandingan tingkat rasio masih belum dijawab. Bahkan jika kita tahu bahwa AUC adalah, katakanlah, .6 hanya menggunakan x1 dan .9 hanya menggunakan x2, kita tidak bisa mengatakan bahwa pentingnya x2 karena itu 50% lebih besar. Juga, saya pikir, itu (1 - 10% / 40%) = 75% lebih besar. Kita juga tidak dapat melakukan sesuatu yang analog dengan hanya menggunakan sensitivitas atau spesifisitas saja. Saya juga ragu tentang penerapan statistik Wald di sini. Yang paling membantu mungkin adalah penjelasan tentang koefisien terstandarisasi (lihat buku online Scott Menard).
rolando2
Terima kasih rolando2! Variabel dalam pertanyaan ini adalah semua ukuran dalam metrik yang sama, sehingga koefisien terstandarisasi dan tidak terstandarisasi harus sama. Lebih lanjut, walaupun kita dapat menggunakan koefisien terstandarisasi untuk membandingkan variabel pada level logit (log-odds), bagaimana kita dapat menginterpretasikan variabel pada P (probabilitas pembelian pembeli online dalam kasus ini)? Terima kasih banyak!
xyhzc
1
Saya tidak melihatnya menjawab pertanyaan itu.
HelloWorld
4

Karena Anda secara khusus meminta interpretasi pada skala probabilitas: Dalam regresi logistik, estimasi probabilitas keberhasilan diberikan oleh

π^(x)=exp(β0+βx)1+exp(β0+βx)

β0βx

exp(0.1)1+exp(0.1)=0.52

Seseorang yang mengklik iklan 3 saja:

exp(0.3)1+exp(0.3)=0.57

Namun, jika orang mengklik iklan 1 atau 3 tetapi juga iklan 2 (jika ini adalah skenario plasubile), probabilitas menjadi

exp(0.1+0.2)1+exp(0.1+0.2)=0.57

exp(0.3+0.2)1+exp(0.3+0.2)=0.62

Dalam hal ini perubahan dalam probabilitas keduanya 0,05, tetapi biasanya perubahan ini tidak sama untuk kombinasi level yang berbeda. (Anda dapat melihat ini dengan mudah jika Anda misalnya menggunakan pendekatan yang sama seperti di atas tetapi dengan koefisien 0,1, 1,5, 0,3.) Dengan demikian, pentingnya suatu variabel pada skala probabilitas tergantung pada tingkat yang diamati dari variabel lain. Ini mungkin menyulitkan (mustahil?) Untuk membuat ukuran kepentingan variabel kuantitatif mutlak pada skala probabilitas.

Mat.135
sumber
terima kasih atas penjelasan anda! Lalu, tahukah Anda apakah ada metode tidak langsung untuk mengukur kepentingan relatif dari para prediktor? mike1886 menyebutkan "analisis kurva ROC" dalam jawabannya, tetapi memiliki beberapa masalah seperti yang disebutkan oleh rolando2. Terima kasih banyak!
xyhzc