Wald test untuk regresi logistik

55

Sejauh yang saya mengerti tes Wald dalam konteks regresi logistik digunakan untuk menentukan apakah variabel prediktor tertentu signifikan atau tidak. Ia menolak hipotesis nol dari koefisien yang sesuai menjadi nol.X

Tes terdiri dari membagi nilai koefisien dengan kesalahan standar .σ

Yang saya bingung adalah bahwa juga dikenal sebagai Z-score dan menunjukkan seberapa besar kemungkinan bahwa pengamatan yang diberikan datang dari distribusi normal (dengan rata-rata nol).X/σ

pengguna695652
sumber
2
Mungkin bisa sebaliknya, karena jawaban yang satu ini lebih berkembang.
Firebug

Jawaban:

86

Estimasi koefisien dan intersepsi dalam regresi logistik (dan GLM apa pun) ditemukan melalui estimasi maksimum-likelihood (MLE). Perkiraan ini dilambangkan dengan topi atas parameter, seperti θ . Parameter minat kami dilambangkan θ 0 dan ini biasanya 0 karena kami ingin menguji apakah koefisiennya berbeda dari 0 atau tidak. Dari teori asymptotic MLE, kita tahu bahwa perbedaan antara θ dan θ 0 akan sekitar terdistribusi normal dengan mean 0 (rincian dapat ditemukan dalam matematika statistik buku seperti Larry Wasserman Semua statistik ). Ingat bahwa kesalahan standar tidak lain adalahθ^θ0θ^θ0standar deviasi statistik (Sokal dan Rohlf menulis dalam bukunya Biometry : " statistik adalah salah satu dari banyak jumlah statistik yang dihitung atau diperkirakan", misalnya rata-rata, median, deviasi standar, koefisien korelasi, koefisien regresi, ...). Membagi distribusi normal dengan rata-rata 0 dan standar deviasi dengan standar deviasinya akan menghasilkan distribusi normal standar dengan rata-rata 0 dan standar deviasi 1. Statistik Wald didefinisikan sebagai (misalnya Wasserman (2006): All Statistics , halaman 153, 214 -215): W = ( β - β 0 )σ atau W2=(β-β0)2

W=(β^β0)se^(β^)N(0,1)
Bentuk kedua muncul dari fakta bahwa kuadrat dari distribusi normal standar adalahχ21-Distribusi dengan 1 derajat kebebasan (jumlah dari dua kuadrat distribusi normal standar akan menjadiχ22-distribusi dengan 2 derajat kebebasan dan sebagainya).
W2=(β^β0)2Var^(β^)χ12
χ12χ22

β0=0

W=β^se^(β^)N(0,1)

zt

ztzptzVar[β^|X]=σ2(XX)1σ2Xσ2σ^2=s2se^(βj^)=s2(XX)jj1tt

YBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1ztp-nilai. Di R, lihat dua contoh ini:

Regresi logistik

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

z


Regresi linear normal (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

tzt

Pos terkait lainnya dapat ditemukan di sini .

COOLSerdash
sumber
1
Terima kasih banyak untuk posting yang bagus ini yang menjawab semua pertanyaan saya.
user695652
1
Jadi, praktisnya, mengenai bagian pertama dari jawaban Anda yang luar biasa: Jika karena alasan tertentu saya akan menghasilkan rasio odds dan statistik Wald, daripada menghitung kesalahan standar dari ini sebagai: SE = (1 / Wald- statistik) * ln (OR) Apakah ini benar? Terima kasih!
Sander W. van der Laan
1
@ SanderW.vanderLaan Terima kasih atas komentar Anda. Ya, saya percaya itu benar. Jika Anda melakukan regresi logistik, statistik Wald akan menjadi nilai-z.
COOLSerdash
2
Jawaban yang bagus !!. Saya punya beberapa saran revisi: Saya pribadi merasa jawaban ini mencampur rincian dengan daftar punch. Saya akan menempatkan rincian tentang bagaimana regresi linier menggunakan varians residual dalam grafik terpisah.
Haitao Du
1
Juga untuk parameter dispersi dan koneksi ke kode R, mungkin kita dapat membuka bagian lain atau garis pemisah untuk dibicarakan.
Haitao Du