Mari kita memiliki beberapa model linier, misalnya ANOVA hanya sederhana:
# data generation
set.seed(1.234)
Ng <- c(41, 37, 42)
data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1)
fact <- as.factor(rep(LETTERS[1:3], Ng))
m1 = lm(data ~ 0 + fact)
summary(m1)
Hasilnya adalah sebagai berikut:
Call:
lm(formula = data ~ 0 + fact)
Residuals:
Min 1Q Median 3Q Max
-2.30047 -0.60414 -0.04078 0.54316 2.25323
Coefficients:
Estimate Std. Error t value Pr(>|t|)
factA -0.9142 0.1388 -6.588 1.34e-09 ***
factB 0.1484 0.1461 1.016 0.312
factC 1.0990 0.1371 8.015 9.25e-13 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.8886 on 117 degrees of freedom
Multiple R-squared: 0.4816, Adjusted R-squared: 0.4683
F-statistic: 36.23 on 3 and 117 DF, p-value: < 2.2e-16
Sekarang saya mencoba dua metode berbeda untuk memperkirakan interval kepercayaan parameter ini
c = coef(summary(m1))
# 1st method: CI limits from SE, assuming normal distribution
cbind(low = c[,1] - qnorm(p = 0.975) * c[,2],
high = c[,1] + qnorm(p = 0.975) * c[,2])
# 2nd method
confint(m1)
Pertanyaan:
- Apa distribusi estimasi koefisien regresi linier? Normal atau ?
- Mengapa kedua metode menghasilkan hasil yang berbeda? Dengan asumsi distribusi normal dan SE yang benar, saya berharap kedua metode memiliki hasil yang sama.
Terima kasih banyak!
data ~ 0 + fakta
Sunting setelah jawaban :
Jawabannya tepat, ini akan memberikan hasil yang persis sama confint(m1)
!
# 3rd method
cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2],
high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])
r
regression
confidence-interval
Ingin tahu
sumber
sumber
Jawaban:
(1) Ketika kesalahan biasanya didistribusikan dan varians mereka tidak diketahui, maka β - β 0 memilikit-Distribusi bawah hipotesis nol bahwaβ0adalah koefisien regresi yang benar. Default diadalah untuk mengujiβ0=0, sehinggat-statistics dilaporkan hanya ada β
R
Perhatikan bahwa, dalam beberapa kondisi keteraturan, statistik di atas selalu berdistribusi normal asimptot , terlepas dari apakah kesalahannya normal atau apakah varians kesalahan diketahui.
(2) Alasan Anda mendapatkan hasil yang berbeda adalah bahwa persentil dari distribusi normal berbeda dari persentil dari distribusi- . Oleh karena itu, pengganda yang Anda gunakan di depan kesalahan standar berbeda, yang, pada gilirannya, memberikan interval kepercayaan yang berbeda.t
Secara khusus, ingat bahwa interval kepercayaan menggunakan distribusi normal
di mana adalah α / 2 kuantil dari distribusi normal. Dalam kasus standar interval kepercayaan 95 % , α = .05 dan z α / 2 ≈ 1.96 . Interval kepercayaan berdasarkan distribusi- t adalahzα/2 α/2 95% α=.05 zα/2≈1.96 t
sumber
confint(m1)
, bahkan untuk ukuran sampel kecil!cbind(low = c[,1] - qt(p = 0.975, df = sum(Ng) - 3) * c[,2], high = c[,1] + qt(p = 0.975, df = sum(Ng) - 3) * c[,2])