Mengkonfirmasi distribusi residu dalam regresi linier

17

Misalkan kita menjalankan regresi linier sederhana $y=\beta_0+\beta_1x+u$ , menyelamatkan residu $\hat{u_i}$ dan menggambar histogram distribusi residu. Jika kita mendapatkan sesuatu yang terlihat seperti distribusi yang akrab, dapatkah kita berasumsi bahwa istilah kesalahan kita memiliki distribusi ini? Katakanlah, jika kami menemukan bahwa residu menyerupai distribusi normal, apakah masuk akal untuk menganggap normalitas istilah kesalahan dalam populasi? Saya pikir itu masuk akal, tetapi bagaimana bisa dibenarkan?

r regression residuals marcin63
sumber

1

Secara pribadi saya merasa agak sulit untuk menilai normalitas dari histogram (atau plot densitas kernel). Saya tidak akan pernah mengandalkan mereka sebagai bukti "pamungkas". Plot QQ jauh lebih kuat untuk tujuan ini.

18

Itu semua tergantung pada bagaimana Anda memperkirakan parameter . Biasanya, penduga adalah linear, yang menyiratkan residual adalah fungsi linear dari data. Ketika kesalahan memiliki distribusi normal, maka begitu juga data, mana begitu residual ( indeks kasus data, tentu saja). $u_i$ $\hat{u}_i$ $i$

Dapat dibayangkan (dan secara logis memungkinkan) bahwa ketika residu tampaknya memiliki sekitar distribusi Normal (univariat), bahwa ini muncul dari distribusi kesalahan yang tidak normal . Namun, dengan teknik estimasi kuadrat terkecil (atau kemungkinan maksimum), transformasi linier untuk menghitung residu adalah "ringan" dalam arti bahwa fungsi karakteristik dari distribusi residual (multivariat) tidak dapat berbeda jauh dari cf kesalahan. .

Dalam prakteknya, kita tidak pernah perlu bahwa kesalahan akan persis didistribusikan Biasanya, jadi ini adalah masalah penting. Impor yang jauh lebih besar untuk kesalahan adalah bahwa (1) harapan mereka semua harus mendekati nol; (2) korelasinya harus rendah; dan (3) harus ada sejumlah kecil nilai-nilai terpencil yang dapat diterima. Untuk memeriksa ini, kami menerapkan berbagai tes good-of-fit, tes korelasi, dan tes outlier (masing-masing) untuk residu. Pemodelan regresi yang hati-hati selalu termasuk menjalankan tes seperti itu (yang mencakup berbagai visualisasi grafis dari residu, seperti dipasok secara otomatis oleh plotmetode R ketika diterapkan ke lmkelas).

Cara lain untuk menjawab pertanyaan ini adalah dengan mensimulasikan dari model yang dihipotesiskan. Berikut adalah beberapa (minimal, satu kali) Rkode untuk melakukan pekerjaan:

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

Untuk kasus n = 32, plot probabilitas overlay ini dari 99 set residu menunjukkan mereka cenderung dekat dengan distribusi kesalahan (yang merupakan standar normal), karena mereka secara seragam bersatu dengan garis referensi : $y=x$

Figure for n=32

Untuk kasus n = 6, kemiringan median yang lebih kecil dalam plot probabilitas mengisyaratkan bahwa residu memiliki varians yang sedikit lebih kecil daripada kesalahan, tetapi secara keseluruhan mereka cenderung terdistribusi secara normal, karena sebagian besar dari mereka melacak garis referensi dengan cukup baik (mengingat nilai kecil ): $n$

Figure for n=6

whuber
sumber

hal-hal akan menjadi lebih menarik jika Anda menambahkan katakan rexp(n)di tempat rnorm(n)saat menghasilkan data Anda. Distribusi residu akan membuat WAY lebih dekat ke normal daripada yang Anda kira.

Tugas

Tetapi jika kita tidak menganggap residualnya normal, bagaimana nilai p dari koefisien estimasi yang dihasilkan dihitung? Apa statistik uji?

Semut

5

y_{i} = x_{i}^{'} β + ϵ_{i}

$y_i = x_i'\beta + \epsilon_i$

y = X β + ϵ

$\mathbf{y} = \mathbf{X}\beta + \mathbf{\epsilon}$

e = (I - H) y

$\mathbf{e} = (I-H) \mathbf{y}$

H = X (X^{'} X)^{- 1} X^{'}

$H = X(X'X)^{-1} X'$

e_{i}

$e_i$

(1 - h_{i i})

$(1-h_{ii})$

ϵ_{i}

$\epsilon_i$

h_{i j}

$h_{ij}$

ϵ_{j}, j \neq i

$\epsilon_j, j\neq i$

\sum_{j \neq i} h_{i j}^{2} + h_{i i}^{2} = h_{i i}

$\sum_{j\neq i} h_{ij}^2 + h_{ii}^2 = h_{ii}$

O (1 / n)

$O(1/n)$

ϵ_{i}

$\epsilon_i$

e_{i}

$e_i$

(1 - h_{i i}) ϵ_{i}

$(1-h_{ii})\epsilon_i$

Tugas
sumber

1

Jika kita mendapatkan sesuatu yang terlihat seperti distribusi yang akrab, dapatkah kita berasumsi bahwa istilah kesalahan kita memiliki distribusi ini?

Saya berpendapat bahwa Anda tidak bisa, karena model yang baru saja Anda muat tidak valid jika asumsi normal tentang kesalahan tidak berlaku. (dalam arti bahwa bentuk distribusi jelas tidak normal seperti Cauchy dll.)

Pendekatan biasa alih-alih mengasumsikan kesalahan terdistribusi Po Poisson, adalah dengan melakukan beberapa bentuk transformasi data seperti log y, atau 1 / y untuk menormalkan residu. (juga model yang sebenarnya mungkin tidak linier yang akan membuat residu yang diplot tampak terdistribusi secara aneh meskipun sebenarnya normal)

Katakanlah, jika kami menemukan bahwa residu menyerupai distribusi normal, apakah masuk akal untuk menganggap normalitas istilah kesalahan dalam populasi?

Anda mengasumsikan normalitas kesalahan begitu Anda telah cocok dengan regresi OLS. Apakah Anda harus memberikan argumen untuk klaim itu, tergantung pada jenis dan tingkat pekerjaan Anda. (Sering berguna untuk melihat praktik apa yang diterima di lapangan)

Sekarang, jika residu sebenarnya tampak terdistribusi secara normal, Anda dapat mengelus diri Anda sendiri, karena Anda dapat menggunakannya sebagai bukti empiris dari asumsi Anda sebelumnya. :)

berarti-untuk-makna
sumber

0

Ya itu masuk akal. Sisa adalah kesalahan. Anda juga dapat melihat plot QQ normal.

Thomas
sumber

Ya benar, "tetapi bagaimana itu bisa dibenarkan?" Apa yang meyakinkan kita bahwa distribusi empiris

{\hat{u}}_{i}

$\hat{u}_i$ akan memperkirakan bahwa dari

u

$u$ ?

whuber

7

Ini sangat bagus tapi residualnya bukan kesalahannya. Sisa adalah perbedaan yang diamati dari model yang diperkirakan,

y_{i} - x_{i} \hat{β}

$y_{i} - x_{i} \hat{\beta}$ . Kesalahan adalah perbedaan dari model yang sebenarnya

y_{i} - x_{i} β

$y_{i} - x_{i} \beta$ .

Makro

@whuber: Saya tidak tahu apa itu, tapi saya berasumsi itu adalah hal yang sama yang membenarkan sampel

x

$x$ mendekati populasi

X

$X$ , Baik?

Wayne

1

@Wayne, saya percaya "itu" mengacu pada prosedur "jika kami menemukan bahwa residu menyerupai distribusi normal, ... untuk mengasumsikan normalitas istilah kesalahan dalam populasi." Saya pikir Anda pada dasarnya benar, tetapi kehalusannya adalah bahwa residu adalah produk dari sampel dan metode yang digunakan untuk memperkirakan parameter. Saya menemukan ini menjadi pertanyaan yang bijaksana dan menarik.

whuber

@whuber Saya akan tertarik pada pendapat Anda tentang residualisasi pelajar versus baku.

Michelle

Mengkonfirmasi distribusi residu dalam regresi linier

Jawaban: