Prediktor signifikan menjadi tidak signifikan dalam regresi logistik berganda

11

Ketika saya menganalisis variabel saya dalam dua model regresi logistik yang terpisah (univariat), saya mendapatkan yang berikut:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

tetapi ketika saya memasukkannya ke dalam satu model regresi logistik tunggal, saya mendapatkan:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

Kedua prediktor dikotomis (kategorikal). Saya telah memeriksa multikolinieritas.

Saya tidak yakin apakah saya telah memberikan informasi yang cukup, tetapi saya tidak dapat memahami mengapa prediktor 1 berubah dari signifikan menjadi non-signifikan dan mengapa rasio odds sangat berbeda dalam model regresi berganda. Adakah yang bisa memberikan penjelasan dasar tentang apa yang sedang terjadi?

Annie
sumber
2
multivariat biasanya menunjukkan beberapa variabel dependen - maksud Anda adalah beberapa prediktor, bukan? Itu biasanya akan disebut sebagai regresi berganda.
Makro
1
β
ah terima kasih Saya memeriksa diagnostik collinearity melalui regresi linear pada spss & memeriksa toleransi dan VIF - apakah ini benar?
Annie
Komentar yang bagus @ Macro. Samar-samar saya ingat pernah membaca tentang cara untuk memperbaiki masalah ini tentang skala, tetapi saya tidak ingat di mana.
Peter Flom - Reinstate Monica
1
π2/3

Jawaban:

20

Ada beberapa alasan (tidak ada yang secara khusus terkait dengan regresi logistik, tetapi dapat terjadi dalam regresi apa pun).

  1. Hilangnya derajat kebebasan: ketika mencoba memperkirakan lebih banyak parameter dari dataset yang diberikan, Anda secara efektif menanyakan lebih banyak darinya, yang mana presisi biaya, karenanya mengarah ke t-statistik yang lebih rendah, maka nilai-p lebih tinggi.
  2. Korelasi Regresi: Regressor Anda mungkin terkait satu sama lain, secara efektif mengukur sesuatu yang serupa. Katakanlah, model logit Anda adalah untuk menjelaskan status pasar tenaga kerja (bekerja / tidak bekerja) sebagai fungsi dari pengalaman dan usia. Secara individual, kedua variabel berhubungan positif dengan status, karena lebih berpengalaman / lebih tua (mengesampingkan karyawan yang sangat tua demi argumen) karyawan menemukan lebih mudah untuk mencari pekerjaan daripada lulusan baru. Sekarang, jelas, kedua variabel sangat terkait, karena Anda harus lebih tua untuk memiliki lebih banyak pengalaman. Oleh karena itu, dua variabel pada dasarnya "bersaing" untuk menjelaskan status, yang mungkin, terutama dalam sampel kecil, menghasilkan kedua variabel "kehilangan", karena tidak ada efek yang cukup kuat dan cukup tepat diperkirakan ketika mengendalikan yang lain untuk mendapatkan estimasi signifikan. Pada dasarnya, Anda bertanya: apa efek positif dari pengalaman satu tahun lagi ketika mempertahankan usia konstan? Mungkin ada sangat sedikit atau tidak ada karyawan dalam dataset Anda untuk menjawab pertanyaan itu, sehingga efeknya akan diperkirakan secara tidak tepat, yang mengarah ke nilai-p yang besar.

  3. Model yang salah ditentukan: Teori dasar untuk nilai t-statistik / p mengharuskan Anda memperkirakan model yang ditentukan dengan benar. Sekarang, jika Anda hanya mundur pada satu prediktor, kemungkinan cukup tinggi bahwa model univariat menderita bias variabel yang dihilangkan. Karenanya, semua taruhan tidak sesuai dengan bagaimana nilai-p berperilaku. Pada dasarnya, Anda harus berhati-hati untuk mempercayai mereka ketika model Anda tidak benar.

Christoph Hanck
sumber
Terima kasih atas tanggapan Anda yang menyeluruh dan cepat. Saya akan mencoba menghilangkan multikolinieritas terlebih dahulu. Saya telah menjalankan korelasi antara variabel dan menemukan beberapa, dan akan mencoba menjalankan faktor inflasi varians seperti yang saya dengar itu adalah cara yang baik untuk memeriksa ini juga. Jika ternyata hanya masalah derajat kebebasan, adakah yang bisa saya lakukan? Saya dapat menjelaskan bahwa ini sedang terjadi, tetapi tampaknya membahayakan integritas regresi jika signifikansi turun begitu parah.
Sam O'Brien
3
@ SamO'Brien: Perhatikan bahwa jika tujuan Anda benar-benar seperti yang Anda katakan - "untuk mencoba menentukan" variabel independen mana yang berpotensi menyebabkan respons "-, abaikan beberapa hanya karena mereka berkorelasi dengan yang lain untuk" menghilangkan multikolinearitas " tidak akan membantu mencapainya.
Scortchi - mengembalikan Monica
1
Apakah mungkin untuk sebaliknya yaitu prediktor yang sama tidak signifikan dalam regresi sederhana tetapi signifikan dalam regresi berganda?
gkcn
8

Tidak ada alasan khusus mengapa ini tidak boleh terjadi. Regresi berganda menanyakan pertanyaan yang berbeda dari regresi sederhana. Secara khusus, regresi berganda (dalam hal ini, regresi logistik berganda) menanyakan tentang hubungan antara variabel dependen dan variabel independen, mengendalikan variabel independen lainnya. Regresi sederhana menanyakan tentang hubungan antara variabel dependen dan variabel independen (tunggal).

Jika Anda menambahkan konteks penelitian Anda (mis., Apa variabel-variabel ini?) Dimungkinkan untuk memberikan respons yang lebih spesifik. Juga, mengingat ketiga variabel dalam kasus Anda adalah dikotomi, Anda dapat dengan mudah menyajikan data kepada kami ... hanya ada 8 baris yang diperlukan untuk merangkum ini:

DVIV1IV2CountAAA10AAB20

dll.

Peter Flom - Pasang kembali Monica
sumber