Saya sedang melakukan penelitian menggunakan regresi logistik. 10 variabel mempengaruhi variabel dependen. Salah satu yang disebutkan di atas adalah kategorikal (mis., Pengiriman ekspres, pengiriman standar, dll.). Sekarang saya ingin peringkat kategori-kategori tersebut berdasarkan "kekuatan" efeknya pada variabel dependen.
Mereka semua signifikan (nilai p kecil), tapi saya pikir saya tidak bisa hanya menggunakan nilai peluang untuk tujuan peringkat. Entah bagaimana saya perlu mencari tahu, jika masing-masing kategori juga berbeda secara signifikan dari kategori lainnya. Apakah ini benar?
Saya membaca tentang kemungkinan memusatkan variabel. Apakah ini benar-benar pilihan? Saya tidak ingin sisa model saya terpengaruh.
Output stata untuk mendukung komentar saya ke pos @ subra:
Average marginal effects Number of obs = 124773
Model VCE : OIM
Expression : Pr(return), predict()
dy/dx w.r.t. : ExpDel
------------------------------------------------------------------------------
| Delta-method
| dy/dx Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel | .1054605 .0147972 7.36 0.000 .0798584 .1378626
------------------------------------------------------------------------------
Anda dapat menyesuaikan model regresi logistik hanya menggunakan 1 variabel pada saat itu dan memeriksa R2 yang disesuaikan.
Yang menjelaskan sebagian besar varians harus memiliki dampak lebih pada model ...
Saya hanya menebak, tidak yakin bahwa itu adalah solusi yang ketat ...
sumber
Ini adalah pertanyaan umum dengan banyak jawaban. Yang paling sederhana adalah dengan menggunakan fitur standar; nilai absolut dari koefisien yang kembali kemudian dapat secara longgar ditafsirkan sebagai 'lebih tinggi' = 'lebih banyak pengaruh' pada log (peluang). Untuk sebagian besar, menggunakan skor standar seharusnya tidak mempengaruhi hasil keseluruhan Anda (kurva ROC harus sama; matriks kebingungan harus sama dengan asumsi Anda memilih ambang keputusan yang sebanding). Saya biasanya menghitung regresi dua arah; sekali menggunakan skor mentah (untuk mendapatkan persamaan prediksi yang akan saya gunakan) dan kedua kalinya menggunakan skor standar untuk melihat mana yang terbesar.
Sedangkan untuk prediktor kategori, saya berasumsi (tetapi belum memeriksa) bahwa hal yang sama berlaku ketika menggunakan prediktor dinormalisasi.
Jika Anda belum melakukannya, Anda juga harus mempertimbangkan menggunakan regularisasi: Lasso / ridge / elastic net. Ini akan membantu fitur yang lemah, tidak relevan atau berlebihan untuk keluar, meninggalkan Anda dengan model yang lebih pelit.
sumber