Pengujian untuk penyebaran berlebihan dalam regresi logistik

9

R in Action (Kabacoff, 2011) menyarankan rutinitas berikut untuk menguji penyebaran berlebihan dalam regresi logistik:

Fit regresi logistik menggunakan distribusi binomial:

model_binom <- glm(Species=="versicolor" ~ Sepal.Width,
                   family=binomial(), data=iris)

Fit regresi logistik menggunakan distribusi quasibinomial:

model_overdispersed <- glm(Species=="versicolor" ~ Sepal.Width, 
                           family=quasibinomial(), data=iris)

Gunakan chi-squared untuk menguji penyebaran berlebihan:

pchisq(summary(model_overdispersed)$dispersion * model_binom$df.residual, 
       model_binom$df.residual, lower = F)
# [1] 0.7949171

Bisakah seseorang menjelaskan bagaimana dan mengapa distribusi chi-square digunakan untuk menguji penyebaran berlebihan di sini? Nilai p adalah 0,79 - bagaimana ini menunjukkan bahwa overdispersi bukan masalah dalam model distribusi binomial?

luciano
sumber
2
Sangat sulit untuk tidak cocok dengan distribusi Bernoulli kecuali Anda memiliki korelasi pengamatan. Bagaimana dengan kecocokan yang Anda duga tidak memadai?
Frank Harrell
Dengan pengamatan berkorelasi, maksud Anda, bahwa setiap persidangan Bernoulli tidak independen?
luciano
1
Ya, misalnya korelasi serial atau di dalam kluster; uji coba non-independen.
Frank Harrell

Jawaban:

4

Pendekatan yang dijelaskan membutuhkan perhitungan yang tidak perlu. Statistik pengujiannya adil

sum(residuals(model_binom, type = "deviance")^2)

Ini persis sama dengan Pearson χ2 uji statistik karena kurang fit, karena itu memiliki distribusi chi-kuadrat.

Penyebaran berlebih tidak berlaku untuk data Bernoulli. Nilai besarχ2dapat menunjukkan kurangnya kovariat atau kekuatan, atau istilah interaksi, atau data harus dikelompokkan. Nilai p 0,79 menunjukkan tes gagal menemukan masalah.

oleh
sumber
4
Bukankah jawaban di atas harus diubah sebagai berikut? sum(residuals(model_binom, type = "deviance")^2)/model_binom$df.residual
Steve VW