Mengapa regresi linier memiliki asumsi pada residual tetapi model linier umum memiliki asumsi pada respon?

14

Mengapa regresi linier dan Model Umum memiliki asumsi yang tidak konsisten?

  • Dalam regresi linier, kita asumsikan residual berasal dari Gaussian
  • Dalam regresi lain (regresi logistik, regresi racun), kami menganggap respons datang dari beberapa distribusi (binomial, poission dll).

Mengapa kadang-kadang berasumsi sisa dan waktu lain menganggap pada respons? Apakah karena kita ingin mendapatkan properti yang berbeda?


EDIT: Saya pikir menunjukkan mark999 dua bentuk sama. Namun, saya punya satu keraguan tambahan pada iid:

Pertanyaan saya yang lain, Apakah ada asumsi awal tentang regresi logistik? menunjukkan model linier umum tidak memiliki asumsi iid (independen tetapi tidak identik)

Apakah benar bahwa untuk regresi linier, jika kita mengajukan asumsi pada residual , kita akan memiliki iid, tetapi jika kita mengajukan asumsi pada respons , kita akan memiliki sampel yang independen tetapi tidak identik (Gaussian berbeda dengan berbeda )?μ

Haitao Du
sumber
Lihat juga stats.stackexchange.com/questions/295340/…
kjetil b halvorsen

Jawaban:

12

Regresi linier sederhana yang memiliki kesalahan Gaussian adalah atribut yang sangat bagus yang tidak digeneralisasi ke model linear umum.

Dalam model linier umum, respon mengikuti beberapa distribusi yang diberikan diberikan rata-rata . Regresi linier mengikuti pola ini; jika kita punya

yi=β0+β1xi+ϵi

ϵiN(0,σ)

maka kita juga punya

yiN(β0+β1xi,σ)

ϵix

yi

yi=0+2×xi+ϵi

ϵiN(0,0.2)xiBernoulli(p=0.5)

yi

Berikut beberapa Rkode untuk diilustrasikan.

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

histogram

Cliff AB
sumber
yi=1+2×xi+ϵi
3
@ hxd1011: ya, ini adalah perbedaan antara distribusi marginal (jelas tidak normal) dan distribusi kondisional yang diberikan x (kami tahu itu normal sejak kami disimulasikan!). Tidak memikirkan perbedaan antara distribusi bersyarat dan marjinal adalah kesalahan yang sangat umum.
Cliff AB
14

i=1,,n

Yi=β0+β1Xi1++βkXik+ϵi,
ϵiσ2Xi1,,XikYiβ0+β1Xi1++βkXikσ2

Xi1,,Xikβ0+β1Xi1++βkXik

Model regresi linier berganda yang biasa dengan kesalahan normal adalah model linier umum dengan respons normal dan hubungan identitas.

mark999
sumber