Heteroskedastisitas dan normalitas residual

12

Saya memiliki regresi linier yang cukup bagus, saya kira (ini untuk proyek universitas jadi saya tidak benar-benar harus super akurat).

Intinya adalah, jika saya memplot residu vs nilai prediksi, ada (menurut guru saya) sedikit heteroskedastisitas.

Tetapi jika saya memplot QQ-Plot dari residu, jelas bahwa mereka terdistribusi secara normal. Selain itu, tes Shapiro pada residual memiliki -nilai dari , jadi saya pikir tidak ada keraguan residual sebenarnya terdistribusi secara normal.p0.8

Pertanyaan: Bagaimana bisa ada heteroskedastisitas pada nilai prediksi jika residu terdistribusi secara normal?

Semut
sumber
1
Satu tambahan yang sangat singkat untuk @whubers jawaban luar biasa: Anda dapat menggunakan ncvTestfungsi dari paket mobil untuk Rmelakukan tes formal untuk heteroskedastisitas. Dalam contoh whuber, perintah ncvTest(fit)menghasilkan nilai- yang hampir nol dan memberikan bukti kuat terhadap varians kesalahan konstan (yang diharapkan, tentu saja). p
COOLSerdash

Jawaban:

16

Salah satu cara untuk mendekati pertanyaan ini adalah dengan melihatnya secara terbalik: bagaimana kita bisa mulai dengan residu terdistribusi normal dan mengaturnya menjadi heteroskedastik? Dari sudut pandang ini jawabannya menjadi jelas: kaitkan residu yang lebih kecil dengan nilai prediksi yang lebih kecil.

Sebagai ilustrasi, berikut adalah konstruksi eksplisit.

Angka

Data di sebelah kiri jelas heteroscedastic relatif terhadap kecocokan linear (ditunjukkan dalam warna merah). Ini didorong pulang oleh residual vs prediksi plot di sebelah kanan. Tetapi - dengan konstruksi - kumpulan residu yang tidak berurutan mendekati terdistribusi secara normal, sebagaimana ditunjukkan oleh histogram mereka di tengah. (Nilai p dalam uji normalitas Shapiro-Wilk adalah 0,60, diperoleh dengan Rperintah yang shapiro.test(residuals(fit))dikeluarkan setelah menjalankan kode di bawah ini.)

Data nyata dapat terlihat seperti ini juga. Moral adalah bahwa heteroskedastisitas mencirikan hubungan antara ukuran residu dan prediksi sedangkan normalitas tidak memberi tahu kita tentang bagaimana residu berhubungan dengan hal lain.


Ini adalah Rkode untuk konstruksi ini.

set.seed(17)
n <- 256
x <- (1:n)/n                       # The set of x values
e <- rnorm(n, sd=1)                # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)]         # Generate some y values plus "error" `e`.
fit <- lm(y ~ x)                   # Regress `y` against `x`.
par(mfrow=c(1,3))                  # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")
whuber
sumber
2
ok jadi Anda mengatakan bahwa jika saya mengaitkan residu rendah dengan nilai prediksi tinggi, heteroskedastisitas dapat muncul bahkan jika residu terdistribusi normal? Saya pikir saya sudah mendapatkannya, meskipun saya harus benar-benar berpikir lebih banyak tentangnya .. bagaimanapun terima kasih!
Semut
... atau residu rendah dengan nilai prediksi rendah (seperti dalam contoh di sini), atau bahkan dengan cara yang lebih kompleks. Sebagai contoh, heteroskedastisitas ada ketika besarnya rata-rata residu berosilasi dengan nilai prediksi. (Kebanyakan tes formal heteroskedastisitas tidak akan mendeteksi ini, tetapi plot diagnostik yang biasa akan menunjukkannya dengan jelas.)
whuber
0

Dalam regresi kuadrat terkecil (WLS), itu adalah faktor acak dari perkiraan residu yang mungkin ingin Anda lihat terdistribusi secara normal, meskipun sering kali tidak terlalu penting. Perkiraan residual dapat diperhitungkan, seperti yang ditunjukkan dalam kasus regresi sederhana (satu regresi dan melalui asal), di bagian bawah halaman 1, dan bagian bawah halaman 2 dan 7 di https://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys Anyway, ini mungkin membantu menunjukkan di mana normalitas dapat muncul dalam gambar.

Jim Knaub
sumber
Selamat datang di situs ini, @JimKnaub. Kami ingin Anda hadir untuk meminjamkan keahlian Anda pada pertanyaan sesekali. Mengapa tidak mendaftarkan akun Anda? Anda dapat mengetahui caranya di bagian Akun Saya di pusat bantuan kami . Karena Anda baru di sini, Anda mungkin ingin mengikuti tur kami , yang memiliki informasi untuk pengguna baru.
gung - Reinstate Monica
3
Kami mencoba membangun repositori permanen untuk informasi statistik berkualitas tinggi dalam bentuk pertanyaan & jawaban. Jadi, kami waspada terhadap jawaban yang bergantung pada tautan, karena tautanrot. Bisakah Anda memposting kutipan lengkap & ringkasan informasi (mis. Angka / penjelasan) dari tautan sehingga informasi tersebut tetap berguna bahkan jika tautannya mati?
gung - Reinstate Monica