Pertimbangkan gambar berikut dari Model Linear Faraway dengan R (2005, hlm. 59).
Plot pertama tampaknya menunjukkan bahwa residu dan nilai-nilai yang dipasang tidak berkorelasi, karena mereka harus dalam model linier homoseksual dengan kesalahan yang terdistribusi normal. Oleh karena itu, plot kedua dan ketiga, yang tampaknya mengindikasikan ketergantungan antara residu dan nilai yang dipasang, menyarankan model yang berbeda.
Tetapi mengapa plot kedua menyarankan, seperti dicatat oleh Faraway, model linear heteroscedastic, sedangkan plot ketiga menyarankan model non-linear?
Plot kedua tampaknya menunjukkan bahwa nilai absolut residu sangat berkorelasi positif dengan nilai pas, sedangkan tidak ada tren seperti itu jelas dalam plot ketiga. Jadi jika itu kasusnya, secara teori, dalam model linear heteroscedastic dengan kesalahan yang terdistribusi normal
(di mana ekspresi di sebelah kiri adalah matriks varians-kovarians antara residu dan nilai yang dipasang) ini akan menjelaskan mengapa plot kedua dan ketiga setuju dengan interpretasi Faraway.
Tetapi apakah ini yang terjadi? Jika tidak, bagaimana lagi interpretasi Faraway tentang plot kedua dan ketiga dapat dibenarkan? Juga, mengapa plot ketiga mengindikasikan non-linearitas? Apakah tidak mungkin linear, tetapi kesalahannya tidak terdistribusi normal, atau terdistribusi normal, tetapi tidak berpusat pada nol?
sumber
Jawaban:
Di bawah ini adalah plot sisa dengan perkiraan rata-rata dan penyebaran titik (batas yang mencakup sebagian besar nilai) pada setiap nilai yang dipasang (dan karenanya darix ) ditandai - perkiraan kasar yang mengindikasikan rata-rata bersyarat (merah) dan rata-rata bersyarat ± (kira-kira!) dua kali standar deviasi bersyarat (ungu):
Plot kedua menunjukkan residu rata-rata tidak berubah dengan nilai yang dipasang (dan begitu juga tidak berubah denganx ), tetapi penyebaran residu (dan karenanya y tentang garis yang dipasang) meningkat sebagai nilai yang dipasang (atau x ) perubahan. Artinya, penyebarannya tidak konstan. Heteroskedastisitas.
plot ketiga menunjukkan bahwa residu sebagian besar negatif ketika nilai pas kecil, positif ketika nilai pas berada di tengah dan negatif ketika nilai pas besar. Artinya, sebarannya kira-kira konstan, tetapi rata-rata kondisionalnya tidak - garis yang pas tidak menggambarkan caranyay berperilaku sebagai x berubah, karena hubungannya melengkung.
Tidak juga *, dalam situasi itu plot-plot itu terlihat berbeda dengan plot ketiga.
(i) Jika kesalahan normal tetapi tidak terpusat pada nol, tetapi padaθ , katakanlah, maka intersep akan mengambil kesalahan rata-rata, dan estimasi intersep akan menjadi estimasi β0+ θ (itu akan menjadi nilai yang diharapkan, tetapi diperkirakan dengan kesalahan). Akibatnya, residu Anda akan tetap bersyarat rata-rata nol, sehingga plotnya akan terlihat seperti plot pertama di atas.
(ii) Jika kesalahan tidak terdistribusi secara normal, pola titik-titik mungkin terpadat di tempat lain selain garis tengah (jika data miring), katakanlah, tetapi residu rata-rata lokal akan tetap mendekati 0.
Di sini garis ungu masih mewakili interval (sangat) kira-kira 95%, tetapi tidak lagi simetris. (Saya membahas beberapa masalah untuk menghindari mengaburkan poin dasar di sini.)
* Ini belum tentu mustahil - jika Anda memiliki istilah "kesalahan" yang tidak benar-benar berperilaku seperti kesalahan - katakan di manax dan y are related to them in just the right way - you might be able to produce patterns something like these. However, we make assumptions about the error term, such as that it's not related to x , for example, and has zero mean; we'd have to break at least some of those sorts of assumptions to do it. (In many cases you may have reason to conclude that such effects should be absent or at least relatively small.)
sumber
You wrote
It doesn't "seem" to, it does. And that's what heteroskedastic means.
Then you give a matrix of all 1s, which is irrelevant; correlation can exist and be less than 1.
Then you write
They do center around 0. Half or so are below 0, half above. It's harder to tell if they are normally distributed from this plot, but another plot that is usually recommended is a quantile normal plot of the residuals, and that would show whether they are normal or not.
sumber