Asumsi normalitas dalam regresi linier

11

Sebagai asumsi regresi linier, normalitas distribusi kesalahan kadang-kadang salah "diperluas" atau ditafsirkan sebagai kebutuhan untuk normalitas y atau x.

Apakah mungkin untuk membuat skenario / dataset bahwa di mana X dan Y adalah tidak normal tetapi istilah kesalahannya adalah dan oleh karena itu estimasi regresi linier yang diperoleh valid?

ECII
sumber
5
Contoh sepele: X memiliki distribusi Bernoulli (yaitu, mengambil nilai 0 atau 1); Y = X + N (0, 0,1). Baik X maupun Y biasanya tidak terdistribusi sendiri, tetapi regresi Y pada X masih berfungsi.
Hong Ooi
Saya kira Anda berpikir tentang distribusi residu, bukan distribusi variabel.
tashuhka
5
Saya punya contoh yang berhasil di sini: Bagaimana jika residu terdistribusi normal tetapi Y tidak?
gung - Reinstate Monica

Jawaban:

16

Memperluas komentar Hong Oois dengan sebuah gambar. Berikut ini adalah gambar dari dataset di mana tidak ada margin yang terdistribusi normal tetapi residualnya masih ada, sehingga asumsi regresi linier masih valid:

masukkan deskripsi gambar di sini

Gambar dihasilkan oleh kode R berikut:

library(psych)
x <- rbinom(100, 1, 0.3)
y <- rnorm(length(x), 5 + x * 5, 1)

scatter.hist(x, y, correl=F, density=F, ellipse=F, xlab="x", ylab="y")
Rasmus Bååth
sumber