Misalkan model regresi logistik digunakan untuk memprediksi apakah seorang pembelanja online akan membeli produk (hasil: pembelian), setelah dia mengklik satu set iklan online (prediktor: Ad1, Ad2, dan Ad3).
Hasilnya adalah variabel biner: 1 (dibeli) atau 0 (tidak murni). Prediktor juga merupakan variabel biner: 1 (diklik) atau 0 (tidak diklik). Jadi semua variabel berada pada skala yang sama.
Jika koefisien yang dihasilkan dari Ad1, Ad2, dan Ad3 adalah 0,1, 0,2, dan 03, kita dapat menyimpulkan bahwa Ad3 lebih penting daripada Ad2, dan Ad2 lebih penting daripada Ad1. Lebih lanjut, karena semua variabel berada pada skala yang sama, koefisien terstandarisasi dan tidak terstandarisasi harus sama, dan kita dapat menyimpulkan bahwa Ad2 dua kali lebih penting daripada Ad1 dalam hal pengaruhnya terhadap level logit (log-odds).
Tetapi dalam praktiknya kita lebih peduli tentang bagaimana membandingkan dan menafsirkan kepentingan relatif variabel dalam hal tingkat p (probabilitas pembelian), bukan logit (log-odds).
Dengan demikian pertanyaannya adalah: Apakah ada pendekatan untuk mengukur kepentingan relatif variabel-variabel ini dalam hal p?
sumber
Jawaban:
Untuk model linier Anda dapat menggunakan nilai absolut dari t-statistik untuk setiap parameter model.
Anda juga dapat menggunakan sesuatu seperti forrest acak dan mendapatkan daftar fitur yang sangat penting.
Jika Anda menggunakan R check out ( http://caret.r-forge.r-project.org/varimp.html ), jika Anda menggunakan python check out ( http://scikit-learn.org/stable/auto_examples /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )
EDIT:
Karena logit tidak memiliki cara langsung untuk melakukan ini, Anda dapat menggunakan kurva ROC untuk setiap prediktor.
Contoh cara kerjanya di R adalah:
sumber
Karena Anda secara khusus meminta interpretasi pada skala probabilitas: Dalam regresi logistik, estimasi probabilitas keberhasilan diberikan oleh
Seseorang yang mengklik iklan 3 saja:
Namun, jika orang mengklik iklan 1 atau 3 tetapi juga iklan 2 (jika ini adalah skenario plasubile), probabilitas menjadi
Dalam hal ini perubahan dalam probabilitas keduanya 0,05, tetapi biasanya perubahan ini tidak sama untuk kombinasi level yang berbeda. (Anda dapat melihat ini dengan mudah jika Anda misalnya menggunakan pendekatan yang sama seperti di atas tetapi dengan koefisien 0,1, 1,5, 0,3.) Dengan demikian, pentingnya suatu variabel pada skala probabilitas tergantung pada tingkat yang diamati dari variabel lain. Ini mungkin menyulitkan (mustahil?) Untuk membuat ukuran kepentingan variabel kuantitatif mutlak pada skala probabilitas.
sumber