Haruskah derajat koreksi kebebasan digunakan untuk inferensi pada parameter GLM?

11

Pertanyaan ini terinspirasi oleh jawaban Martijn di sini .

Misalkan kita cocok GLM untuk satu keluarga parameter seperti model binomial atau Poisson dan itu adalah prosedur kemungkinan penuh (sebagai lawan mengatakan, quasipoisson). Kemudian, varians adalah fungsi dari mean. Dengan binomial: dan dengan Poisson .var [ X ] = E [ X ]var[X]=E[X]E[1X]var[X]=E[X]

Tidak seperti regresi linier ketika residu terdistribusi normal, distribusi sampel terbatas dan tepat dari koefisien-koefisien ini tidak diketahui, itu mungkin kombinasi yang rumit dari hasil dan kovariat. Juga, menggunakan estimasi rata - rata GLM , yang digunakan sebagai taksiran plugin untuk varian hasil.

Seperti halnya regresi linier, koefisien memiliki distribusi normal asimptotik, sehingga dalam inferensi sampel terbatas kita dapat memperkirakan distribusi sampelnya dengan kurva normal.

Pertanyaan saya adalah: apakah kita memperoleh sesuatu dengan menggunakan pendekatan distribusi-T ke distribusi sampling dari koefisien dalam sampel hingga? Di satu sisi, kita tahu variansnya tetapi kita tidak tahu distribusi yang tepat, jadi perkiraan T sepertinya pilihan yang salah ketika bootstrap atau penaksir jackknife dapat menjelaskan dengan tepat perbedaan-perbedaan ini. Di sisi lain, mungkin sedikit konservatisme dari distribusi-T hanya disukai dalam praktiknya.

AdamO
sumber
1
Pertanyaan bagus. Anda mungkin ingin melihat koreksi Bartlett .
Ben Bolker
1
Saya pikir pertanyaan ini tidak benar, ketika menggunakan MLE atau QMLE Anda hanya memiliki estimasi dan inferensi yang dibenarkan secara asimptotik. menanyakan apakah asumsi A atau B lebih baik dalam pengaturan terbatas tidak dapat dijawab, itu akan selalu mendidih ke duniawi "tergantung pada data dan asumsi mana yang ingin Anda buat". Secara pribadi saya suka bootstrap, dan menggunakannya kapan saja saya bisa, tetapi tidak salah lagi jika menggunakan tes berbasis z atau t standar - itu tidak memungkinkan Anda untuk keluar dari masalah data kecil, sehingga Anda masih membuat asumsi (hanya yang berbeda )
Repmat

Jawaban:

3

Jawaban singkat: Belum jawaban lengkap, tetapi Anda mungkin tertarik dengan distribusi berikut yang terkait dengan pertanyaan terkait: Ini membandingkan z-test (seperti juga digunakan oleh glm) dan t-test

    layout(matrix(1:2,1,byrow=TRUE))

    # trying all 100 possible outcomes if the true value is p=0.7
    px <- dbinom(0:100,100,0.7)
    p_model = rep(0,101)
    p_model2 = rep(0,101)
    for (i in 0:100) {
      xi = c(rep(1,i),rep(0,100-i))
      model = glm(xi ~ 1, offset=rep(qlogis(0.7),100), family="binomial")
      p_model[i+1] = 1-summary(model)$coefficients[4]
      model2 <- glm(xi ~ 1, family = "binomial")
      coef <- summary(model2)$coefficients
      p_model2[i+1] = 1-2*pt(-abs((qlogis(0.7)-coef[1])/coef[2]),99,ncp=0)
    }


    # plotting cumulative distribution of outcomes z-test
    outcomes <- p_model[order(p_model)]
    cdf <- cumsum(px[order(p_model)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
    #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with z-test \n as function of set alpha level")


    # plotting cumulative distribution of outcomes t-test
    outcomes <- p_model2[order(p_model2)]
    cdf <- cumsum(px[order(p_model2)])
    plot(1-outcomes,1-cdf, 
         ylab="cumulative probability", 
         xlab= "calculated glm p-value",
         xlim=c(10^-4,1),ylim=c(10^-4,1),col=2,cex=0.5,log="xy")
    lines(c(0.00001,1),c(0.00001,1))
    for (i in 1:100) {
      lines(1-c(outcomes[i],outcomes[i+1]),1-c(cdf[i+1],cdf[i+1]),col=2)
      #  lines(1-c(outcomes[i],outcomes[i]),1-c(cdf[i],cdf[i+1]),col=2)
    }

    title("probability for rejection with t-test \n as function of set alpha level")
    [![p-test vs t-test][1]][1]

Dan hanya ada perbedaan kecil. Dan juga z-test sebenarnya lebih baik (tapi ini mungkin karena kedua t-test dan z-test adalah "salah" dan mungkin kesalahan dari z-test mengkompensasi kesalahan ini).

masukkan deskripsi gambar di sini

Jawaban Panjang: ...

Sextus Empiricus
sumber