Distribusi miring vs. simetris diamati

10

Ini cukup sulit untuk saya gambarkan, tetapi saya akan mencoba membuat masalah saya dapat dimengerti. Jadi pertama-tama Anda harus tahu bahwa saya telah melakukan regresi linier yang sangat sederhana sejauh ini. Sebelum saya memperkirakan koefisien, saya memperhatikan distribusi saya . Itu berat miring miring. Setelah saya memperkirakan model, saya cukup yakin untuk mengamati residu condong ke kiri di QQ-Plot sebagai wel, tapi saya benar-benar tidak. Apa yang mungkin menjadi alasan untuk solusi ini? Dimana kesalahannya? Atau memiliki distribusi tidak ada hubungannya dengan distribusi istilah kesalahan?yyy

MarkDollar
sumber
@Aniko memberikan jawaban yang bagus untuk menjawab pertanyaan Anda sebelumnya.
whuber

Jawaban:

22

Untuk menjawab pertanyaan Anda, mari kita ambil contoh yang sangat sederhana. Model regresi sederhana diberikan oleh , di mana ϵ iN ( 0 , σ 2 ) . Sekarang anggaplah x i adalah dikotomis. Jika β 1 tidak sama dengan nol, maka distribusi y iysaya=β0+β1xsaya+ϵsayaϵsayaN(0,σ2)xsayaβ1ysaya tidak akan normal, tetapi sebenarnya merupakan campuran dari dua distribusi normal, satu dengan rata-rata dan satu dengan rata-rata β 0β0 .β0+β1

Jika cukup besar dan σ 2 cukup kecil, maka histogram y i akan terlihat bimodal. Namun, kita juga bisa mendapatkan histogram dari y i yang terlihat seperti "tunggal" distribusi miring. Berikut ini satu contoh (menggunakan R):β1σ2ysayaysaya

xi <- rbinom(10000, 1, .2)
yi <- 0 + 3 * xi + rnorm(10000, .7)
hist(yi, breaks=20)
qqnorm(yi); qqline(yi)

Ini bukan distribusi yang penting - tetapi distribusi istilah kesalahan.ysaya

res <- lm(yi ~ xi)
hist(resid(res), breaks=20)
qqnorm(resid(res)); qqline(resid(res))

Dan itu terlihat sangat normal - tidak hanya secara kiasan =)

Wolfgang
sumber
"tapi distribusi istilah kesalahan" Maksudmu di sini residual bukan istilah kesalahan, kan? Lebih lanjut tentang residual vs kesalahan: stats.stackexchange.com/questions/133389/…
vasili111
7

Dengan merujuk pada jawaban luar biasa dari @ Wolfgang, berikut adalah plot dari kode R-nya:

masukkan deskripsi gambar di sini

Contango
sumber