Uji model GLM menggunakan null dan penyimpangan model

11

Saya telah membangun model GLM di R dan telah mengujinya menggunakan kelompok pengujian dan pelatihan sehingga saya yakin itu bekerja dengan baik. Hasil dari R adalah:

Coefficients:
                            Estimate Std. Error  t value Pr(>|t|)    
(Intercept)               -2.781e+00  1.677e-02 -165.789  < 2e-16 ***
Coeff_A                    1.663e-05  5.438e-06    3.059  0.00222 ** 
log(Coeff_B)               8.925e-01  1.023e-02   87.245  < 2e-16 ***
log(Coeff_C)              -3.978e-01  7.695e-03  -51.689  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for quasibinomial family taken to be 0.9995149)

    Null deviance: 256600  on 671266  degrees of freedom
Residual deviance: 237230  on 671263  degrees of freedom
AIC: NA

Semua nilai p untuk koefisien kecil seperti yang diharapkan.

Melihat pertanyaan ini ( Menafsirkan Penyimpangan sisa dan Null dalam GLM R ), saya harus dapat menghitung jika hipotesis nol berlaku dengan menggunakan persamaan berikut:

p-value = 1 - pchisq(deviance, degrees of freedom)

Sticking in ini memberi:

1 - pchisq(256600, 671266)
[1] 1

Jadi apakah saya benar dalam berpikir bahwa hipotesis nol tidak dapat ditolak di sini, meskipun nilai p untuk semua koefisien sangat kecil atau apakah saya salah menafsirkan bagaimana menghitung ini?

Zfunk
sumber

Jawaban:

18

Ada kesalahpahaman di sini. The perbedaan antara penyimpangan nol dan penyimpangan model didistribusikan sebagai chi-kuadrat dengan derajat kebebasan sama dengan df nol dikurangi df model. Untuk model Anda, itu akan menjadi:

1-pchisq(256600 - 237230, df=(671266 - 671263))
# [1] 0

Secara default, pchisq()berikan proporsi distribusi di sebelah kiri nilai. Untuk mendapatkan proporsi yang lebih ekstrem daripada perbedaan Anda, Anda dapat menentukan lower.tail = FALSEatau mengurangi hasil dari (seperti yang telah Anda dan saya lakukan). 1

gung - Pasang kembali Monica
sumber
2
Hipotesis apa sebenarnya yang Anda uji dengan pernyataan itu 1-pchisq(256600 - 237230, df=(671266 - 671263))?
Juli
5
@ jesterII, Anda memeriksa apakah penyimpangan berubah lebih dari yang mungkin diharapkan secara kebetulan. Yaitu, Anda menguji apakah model secara keseluruhan lebih baik daripada model nol. Ini analog dengan uji F global dalam model linier.
gung - Reinstate Monica
Hipotesis nol adalah 'model secara keseluruhan lebih baik daripada model nol', dan Anda telah menolak hipotesis nol, yang berarti model tersebut buruk?
Juli
3
@ jesterII, tidak ada hipotesis nol adalah: 'model secara keseluruhan tidak lebih baik dari model nol'. Karena ini telah ditolak, kami menyimpulkan bahwa data tidak konsisten dengan model nol. NB, ini tidak berarti bahwa model kami 'baik' atau 'benar'.
gung - Reinstate Monica