Membandingkan model regresi pada data jumlah

11

Baru-baru ini saya memasukkan 4 model regresi berganda untuk data prediktor / respons yang sama. Dua model yang saya cocok dengan regresi Poisson.

model.pois <- glm(Response ~ P1 + P2 +...+ P5, family=poisson(), ...)
model.pois.inter <- glm(Response ~ (P1 + P2 +...+ P5)^2, family=poisson(), ...)

Dua model yang saya cocok dengan regresi binomial negatif.

library(MASS)
model.nb <- glm.nb(Response ~ P1 + P2 +...+ P5, ...)
model.nb.inter <- glm.nb(Response ~ (P1 + P2 +...+ P5)^2, ...)

Apakah ada tes statistik yang dapat saya gunakan untuk membandingkan model-model ini? Saya telah menggunakan AIC sebagai tolok ukur, tetapi AFAIK ini tidak mewakili tes yang sebenarnya.

Daniel Standage
sumber
Anda ingin membandingkan kesesuaian model dengan menggunakan uji statistik, bukan? Hipotesis apa yang ingin Anda uji?
Firefeather
@Firefeather Misalnya, saya ingin menguji apakah kecocokan model.nb.intersecara signifikan lebih baik daripada model.pois.inter. Ya, AIC lebih rendah, tetapi seberapa jauh lebih rendah secara signifikan lebih baik ?
Daniel Standage
Catatan: jawaban untuk pertanyaan ini sebenarnya tidak perlu termasuk AIC.
Daniel Standage
Fmodel.poismodel.pois.intermodel.nbmodel.nb.interF
1
@Firefeather, ya saya menyadari perlunya mengontrol tingkat kepercayaan keluarga. Apakah Scheffe lebih cocok di sini daripada, katakanlah, Bonferroni?
Daniel Standage

Jawaban:

14

Anda dapat membandingkan model binomial negatif dengan model Poisson yang sesuai dengan uji rasio kemungkinan. Model Poisson setara dengan model binomial negatif dengan parameter overdispersi nol. Oleh karena itu mereka adalah model bersarang dan rasio kemungkinan valid. Komplikasinya adalah bahwa parameter penyebaran berlebih dibatasi menjadi non-negatif, yaitu secara logis tidak boleh kurang dari nol, sehingga hipotesis nol ada di batas ruang parameter. Ini berarti bahwa alih-alih membandingkan dua kali kemungkinan log ke distribusi chi-kuadrat dengan satu derajat kebebasan, Anda perlu membandingkannya dengan distribusi campuran yang terdiri dari bagian yang sama dari chi-kuadrat dengan 1 df dan titik massa di nol (distribusi chi-squared dengan nol derajat kebebasan). Apa artinya itu dalam praktek adalah bahwa Anda dapat menghitung nilai p menggunakan chi-kuadrat dengan 1 df dan kemudian membagi dua. Untuk detail dan latar belakang lebih lanjut, lihat Kasus 5 dariSelf & Liang JASA 1987; 82 : 605-610. .

Perhatikan bahwa beberapa paket perangkat lunak statistik, seperti Stata, akan melakukan ini semua untuk Anda secara otomatis ketika Anda cocok dengan model binomial negatif. Bahkan saya tanpa malu-malu telah memberikan banyak hal di atas dari sistem bantuan Stata - jika Anda memiliki Stata lihat help j_chibar.

onestop
sumber
5

Saya percaya anova()R dapat digunakan untuk ini. Terlepas dari namanya, ini merupakan uji rasio kemungkinan. Crawley dalam bukunya The R Book memiliki beberapa contoh penggunaan.

Roman Luštrik
sumber
1

Sebagai catatan onestop, karena model bersarang Anda dapat melakukan tes rasio kemungkinan.

Meskipun secara umum itu tidak benar, jadi jika Anda ingin membandingkan model yang tidak bersarang, Anda dapat menggunakan tes Vuong .

Xodarap
sumber