R in Action (Kabacoff, 2011) menyarankan rutinitas berikut untuk menguji penyebaran berlebihan dalam regresi logistik:
Fit regresi logistik menggunakan distribusi binomial:
model_binom <- glm(Species=="versicolor" ~ Sepal.Width,
family=binomial(), data=iris)
Fit regresi logistik menggunakan distribusi quasibinomial:
model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width,
family=quasibinomial(), data=iris)
Gunakan chi-squared untuk menguji penyebaran berlebihan:
pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual,
model_binom$df.residual, lower = F)
# [1] 0.7949171
Bisakah seseorang menjelaskan bagaimana dan mengapa distribusi chi-square digunakan untuk menguji penyebaran berlebihan di sini? Nilai p adalah 0,79 - bagaimana ini menunjukkan bahwa overdispersi bukan masalah dalam model distribusi binomial?
r
regression
distributions
logistic
overdispersion
luciano
sumber
sumber
Jawaban:
Pendekatan yang dijelaskan membutuhkan perhitungan yang tidak perlu. Statistik pengujiannya adil
Ini persis sama dengan Pearsonχ2 uji statistik karena kurang fit, karena itu memiliki distribusi chi-kuadrat.
Penyebaran berlebih tidak berlaku untuk data Bernoulli. Nilai besarχ2 dapat menunjukkan kurangnya kovariat atau kekuatan, atau istilah interaksi, atau data harus dikelompokkan. Nilai p 0,79 menunjukkan tes gagal menemukan masalah.
sumber
sum(residuals(model_binom, type = "deviance")^2)/model_binom$df.residual