Haruskah interval kepercayaan untuk koefisien regresi linier didasarkan pada distribusi normal atau

18

Mari kita memiliki beberapa model linier, misalnya ANOVA hanya sederhana:

# data generation
set.seed(1.234)                      
Ng <- c(41, 37, 42)                    
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)      
fact <- as.factor(rep(LETTERS[1:3], Ng)) 

m1 = lm(data ~ 0 + fact)
summary(m1)

Hasilnya adalah sebagai berikut:

Call:
lm(formula = data ~ 0 + fact)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.30047 -0.60414 -0.04078  0.54316  2.25323 

Coefficients:
      Estimate Std. Error t value Pr(>|t|)    
factA  -0.9142     0.1388  -6.588 1.34e-09 ***
factB   0.1484     0.1461   1.016    0.312    
factC   1.0990     0.1371   8.015 9.25e-13 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816,     Adjusted R-squared: 0.4683 
F-statistic: 36.23 on 3 and 117 DF,  p-value: < 2.2e-16 

Sekarang saya mencoba dua metode berbeda untuk memperkirakan interval kepercayaan parameter ini

c = coef(summary(m1))

# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2], 
    high = c[,1] + qnorm(p = 0.975) * c[,2])

# 2nd method
confint(m1)

Pertanyaan:

  1. Apa distribusi estimasi koefisien regresi linier? Normal atau t ?
  2. Mengapa kedua metode menghasilkan hasil yang berbeda? Dengan asumsi distribusi normal dan SE yang benar, saya berharap kedua metode memiliki hasil yang sama.

Terima kasih banyak!

data ~ 0 + fakta

Sunting setelah jawaban :

Jawabannya tepat, ini akan memberikan hasil yang persis sama confint(m1)!

# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], 
    high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
Ingin tahu
sumber

Jawaban:

19

(1) Ketika kesalahan biasanya didistribusikan dan varians mereka tidak diketahui, maka β - β 0 memilikit-Distribusi bawah hipotesis nol bahwaβ0adalah koefisien regresi yang benar. Default diadalah untuk mengujiβ0=0, sehinggat-statistics dilaporkan hanya ada β

β^β0se(β^)
tβ0Rβ0=0t
β^se(β^)

Perhatikan bahwa, dalam beberapa kondisi keteraturan, statistik di atas selalu berdistribusi normal asimptot , terlepas dari apakah kesalahannya normal atau apakah varians kesalahan diketahui.

(2) Alasan Anda mendapatkan hasil yang berbeda adalah bahwa persentil dari distribusi normal berbeda dari persentil dari distribusi- . Oleh karena itu, pengganda yang Anda gunakan di depan kesalahan standar berbeda, yang, pada gilirannya, memberikan interval kepercayaan yang berbeda.t

Secara khusus, ingat bahwa interval kepercayaan menggunakan distribusi normal

β^±zα/2se(β^)

di mana adalah α / 2 kuantil dari distribusi normal. Dalam kasus standar interval kepercayaan 95 % , α = .05 dan z α / 21.96 . Interval kepercayaan berdasarkan distribusi- t adalahzα/2α/295%α=.05zα/21.96t

β^±tα/2,npse(β^)

tα/2,nptnpnpntα/2,npzα/2

t5300p=1tz

masukkan deskripsi gambar di sini

Makro
sumber
Ya!! Sepotong kerja bagus !! (+1)
gui11aume
Makro, terima kasih atas jawabannya. Tetapi: Anda berbicara tentang distribusi statistik T, sedangkan saya bertanya tentang distribusi koefisien regresi. Pemahaman saya adalah bahwa koefisien regresi adalah distribusi yang ditandai dengan rata-rata (estimasi koefisien) dan kesalahan standarnya. Saya bertanya tentang distribusi ini, bukan uji statistik distribusi. Saya mungkin kehilangan sesuatu jadi tolong coba jelaskan dengan cara yang lebih jelas :) Terima kasih
Curious
2
β^β0se(β^)
tβ^tβ0se(β^)β^
Anda benar sekali! Ini akan memberikan hasil yang sama persisconfint(m1) , bahkan untuk ukuran sampel kecil! cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
Penasaran
β^β^β0β0t