Pertimbangkan regresi binomial berikut:
# Create some data
set.seed(10)
n <- 500
x <- runif(n,0,100)
y <- x + rnorm(n,sd=100) < 0
# Fit a binomial regression model
model <- glm(y ~ x, family="binomial")
summary(model)
The summary
mengembalikan fungsi p-nilai 1.03e-05
. Saat menggunakan anova.glm
, satu mendapat nilai p sedikit lebih ekstrim terlepas dari metode apa yang digunakan untuk menghitung nilai p.
anova(model, test="Rao") # p.value = 7.5e-6
anova(model, test="LRT") # p.value = 6.3e-6
anova(model, test="Chisq") # p.value = 6.3e-6
Apakah nilai p dari summary
fungsi berlaku untuk hipotesis yang sama dengan yang dikembalikan oleh anova
fungsi? Jika ya, bagaimana summary
menghitung nilai-p ini dan apakah mungkin untuk melakukan perhitungan yang sama secara langsung anova
?
Jawaban:
Ini dapat membantu Anda membaca jawaban saya di sini: Mengapa nilai-p saya berbeda antara output regresi logistik, uji chi-square, dan interval kepercayaan untuk OR? Pertanyaan Anda di sini hampir merupakan duplikat dari itu, tetapi ada beberapa elemen tambahan dalam pertanyaan Anda yang dapat diatasi.
Seperti yang dicatat oleh @CliffAB, nilai-p dalamt -menguji koefisien untuk model linier dalam hal mereka adalah perbedaan antara nilai yang pas dari koefisien dan nilai referensi (dianggap sebagai 0 ), dibagi dengan kesalahan standar. Perbedaannya adalah bahwa ini diambil untuk didistribusikan sebagai standar normal, bukant . Di sisi lain, ini berlaku untuk sampel besar dan kami belum tentu tahu apa yang dimaksud dengan 'sampel besar' dalam kasus apa pun.
summary.glm()
output berasal dari tes Wald. Ini analog denganMenggunakan
anova.glm()
memberi Anda akses ke berbagai tes. Ketika Anda mengaturtest="Rao"
, itu memberi Anda nilai p dari tes skor. Dan ketika Anda mengatur salah satutest="Chisq"
atautest="LRT"
(mereka sama), itu memberi Anda nilai p dari tes rasio kemungkinan.The
anova.glm()
Fungsi tidak menguji hipotesis nol sama dengan uji Wald disummary()
keluaran dalam kasus ini . Itu hanya karena model Anda hanya memiliki satu variabel. Theanova.glm()
fungsi akan melakukan tes berurutan, yang analog dengan 'tipe I SS' dalam pengaturan linear, sedangkan tes Wald darisummary()
analog ke 'ketik III SS' dalam pengaturan linear (lihat jawaban saya di sini: Bagaimana menafsirkan tipe I, tipe II, dan tipe III ANOVA dan MANOVA? ). Mempertimbangkan:Anda dapat memilih
anova.glm()
fungsi untuk memberi Anda skor dan kemungkinan rasio tes variabel individu dalam model regresi logistik ganda yang analog dengan 'tipe III SS', tetapi itu membosankan. Anda harus tetap memperbaiki model Anda sehingga setiap variabel pada gilirannya terdaftar terakhir dalam formula yang disediakan untukglm()
panggilan. Nilai p terakhir yang tercantum dalamanova.glm()
output adalah yang akan dianalogikan dengan 'tipe III SS'.Untuk mendapatkan tes rasio skor atau kemungkinan variabel individual lebih nyaman, gunakan
drop1()
saja. Mempertimbangkan:sumber
Dalam
R
,summary
fungsi untukglm
menghitung nilai p menggunakan statistik Wald sederhana, yaitudimanaβ^ adalah parameter regresi yang menarik, SE(β^) adalah kesalahan standar estimasi parameter regresi ini dan Φ adalah CDF dari distribusi normal standar.
Untuk membuat ulang ini dari output Anda, coba
sumber