Ketika saya menganalisis variabel saya dalam dua model regresi logistik yang terpisah (univariat), saya mendapatkan yang berikut:
Predictor 1: B= 1.049, SE=.352, Exp(B)=2.85, 95% CI=(1.43, 5.69), p=.003
Constant: B=-0.434, SE=.217, Exp(B)=0.65, p=.046
Predictor 2: B= 1.379, SE=.386, Exp(B)=3.97, 95% CI=(1.86, 8.47), p<.001
Constant: B=-0.447, SE=.205, Exp(B)=0.64, p=.029
tetapi ketika saya memasukkannya ke dalam satu model regresi logistik tunggal, saya mendapatkan:
Predictor 1: B= 0.556, SE=.406, Exp(B)=1.74, 95% CI=(0.79, 3.86), p=.171
Predictor 2: B= 1.094, SE=.436, Exp(B)=2.99, 95% CI=(1.27, 7.02), p=.012
Constant: B=-0.574, SE=.227, Exp(B)=0.56, p=.012
Kedua prediktor dikotomis (kategorikal). Saya telah memeriksa multikolinieritas.
Saya tidak yakin apakah saya telah memberikan informasi yang cukup, tetapi saya tidak dapat memahami mengapa prediktor 1 berubah dari signifikan menjadi non-signifikan dan mengapa rasio odds sangat berbeda dalam model regresi berganda. Adakah yang bisa memberikan penjelasan dasar tentang apa yang sedang terjadi?
Jawaban:
Ada beberapa alasan (tidak ada yang secara khusus terkait dengan regresi logistik, tetapi dapat terjadi dalam regresi apa pun).
Korelasi Regresi: Regressor Anda mungkin terkait satu sama lain, secara efektif mengukur sesuatu yang serupa. Katakanlah, model logit Anda adalah untuk menjelaskan status pasar tenaga kerja (bekerja / tidak bekerja) sebagai fungsi dari pengalaman dan usia. Secara individual, kedua variabel berhubungan positif dengan status, karena lebih berpengalaman / lebih tua (mengesampingkan karyawan yang sangat tua demi argumen) karyawan menemukan lebih mudah untuk mencari pekerjaan daripada lulusan baru. Sekarang, jelas, kedua variabel sangat terkait, karena Anda harus lebih tua untuk memiliki lebih banyak pengalaman. Oleh karena itu, dua variabel pada dasarnya "bersaing" untuk menjelaskan status, yang mungkin, terutama dalam sampel kecil, menghasilkan kedua variabel "kehilangan", karena tidak ada efek yang cukup kuat dan cukup tepat diperkirakan ketika mengendalikan yang lain untuk mendapatkan estimasi signifikan. Pada dasarnya, Anda bertanya: apa efek positif dari pengalaman satu tahun lagi ketika mempertahankan usia konstan? Mungkin ada sangat sedikit atau tidak ada karyawan dalam dataset Anda untuk menjawab pertanyaan itu, sehingga efeknya akan diperkirakan secara tidak tepat, yang mengarah ke nilai-p yang besar.
Model yang salah ditentukan: Teori dasar untuk nilai t-statistik / p mengharuskan Anda memperkirakan model yang ditentukan dengan benar. Sekarang, jika Anda hanya mundur pada satu prediktor, kemungkinan cukup tinggi bahwa model univariat menderita bias variabel yang dihilangkan. Karenanya, semua taruhan tidak sesuai dengan bagaimana nilai-p berperilaku. Pada dasarnya, Anda harus berhati-hati untuk mempercayai mereka ketika model Anda tidak benar.
sumber
Tidak ada alasan khusus mengapa ini tidak boleh terjadi. Regresi berganda menanyakan pertanyaan yang berbeda dari regresi sederhana. Secara khusus, regresi berganda (dalam hal ini, regresi logistik berganda) menanyakan tentang hubungan antara variabel dependen dan variabel independen, mengendalikan variabel independen lainnya. Regresi sederhana menanyakan tentang hubungan antara variabel dependen dan variabel independen (tunggal).
Jika Anda menambahkan konteks penelitian Anda (mis., Apa variabel-variabel ini?) Dimungkinkan untuk memberikan respons yang lebih spesifik. Juga, mengingat ketiga variabel dalam kasus Anda adalah dikotomi, Anda dapat dengan mudah menyajikan data kepada kami ... hanya ada 8 baris yang diperlukan untuk merangkum ini:
dll.
sumber