Satu penjelasan yang mungkin adalah nonlinier dalam hubungan antara hasil Anda dan prediktor.
Ini sedikit contohnya. Kami menggunakan prediktor yang seragam pada . Hasilnya, bagaimanapun, tidak linear tergantung pada prediktor, tetapi pada kuadrat prediktor: TRUE lebih cenderung untuk kedua dan x ≈ 1 , tetapi lebih kecil kemungkinan untuk x ≈ 0 . Dalam hal ini, model linier akan muncul tidak signifikan, tetapi memotong prediktor ke dalam interval membuatnya signifikan.[ - 1 , 1 ]x ≈ - 1x ≈ 1x ≈ 0
> set.seed(1)
> nn <- 1e3
> xx <- runif(nn,-1,1)
> yy <- runif(nn)<1/(1+exp(-xx^2))
>
> library(lmtest)
>
> model_0 <- glm(yy~1,family="binomial")
> model_1 <- glm(yy~xx,family="binomial")
> lrtest(model_1,model_0)
Likelihood ratio test
Model 1: yy ~ xx
Model 2: yy ~ 1
#Df LogLik Df Chisq Pr(>Chisq)
1 2 -676.72
2 1 -677.22 -1 0.9914 0.3194
>
> xx_cut <- cut(xx,c(-1,-0.3,0.3,1))
> model_2 <- glm(yy~xx_cut,family="binomial")
> lrtest(model_2,model_0)
Likelihood ratio test
Model 1: yy ~ xx_cut
Model 2: yy ~ 1
#Df LogLik Df Chisq Pr(>Chisq)
1 3 -673.65
2 1 -677.22 -2 7.1362 0.02821 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Namun, ini tidak berarti bahwa penentuan prediktor adalah pendekatan terbaik. (Hampir tidak pernah.) Jauh lebih baik untuk memodelkan nonlinier menggunakan splines atau serupa.
Salah satu cara yang mungkin adalah jika hubungannya jelas nonlinier. Tidak mungkin untuk memberi tahu (mengingat kurangnya detail) apakah ini benar-benar menjelaskan apa yang terjadi.
Anda dapat memeriksa sendiri. Pertama, Anda bisa melakukan plot variabel tambahan untuk variabel itu sendiri, dan Anda juga bisa plot efek yang dipasang di versi-faktor model. Jika penjelasannya benar, keduanya harus melihat pola nonlinier yang jelas.
sumber