Dalam metode kuadrat terkecil, kami ingin memperkirakan parameter yang tidak diketahui dalam model:
Setelah kami melakukan itu (untuk beberapa nilai yang diamati), kami mendapatkan garis regresi pas:
Sekarang jelas kami ingin memeriksa beberapa plot untuk memastikan bahwa asumsi terpenuhi. Misalkan Anda ingin memeriksa homoscedasticity, namun, untuk melakukan hal ini kita benar-benar memeriksa residual . Katakanlah Anda memeriksa plot nilai residual vs prediksi, jika itu menunjukkan kepada kita bahwa heteroskedastisitas sudah jelas, lalu bagaimana hubungannya dengan istilah gangguan ? Apakah heteroskedastisitas dalam residu menyiratkan heteroskedastisitas dalam istilah gangguan? ε j
Hubungan antara dan adalah:ε^ ε
di mana , matriks topi, adalah .H X(XTX)−1XT
Yang mengatakan bahwa adalah kombinasi linear dari semua kesalahan, tetapi biasanya sebagian besar bobot jatuh pada yang ke- .ε^i i
Berikut ini contoh, menggunakan
cars
kumpulan data dalam R. Pertimbangkan titik bertanda ungu:Sebut saja titik . Sisanya, , di mana untuk kesalahan lain berada di wilayah -0,02:i ε^i≈0.98εi+∑j≠iwjεj wj
Kita dapat menulis ulang itu sebagai:
atau lebih umum
di mana adalah th elemen diagonal dari . Demikian pula, di atas adalah . i H w j h i jhii i H wj hij
Jika kesalahan adalah iid maka dalam contoh ini, jumlah tertimbang dari kesalahan-kesalahan lain akan memiliki standar deviasi yang sesuai dengan sekitar 1/7 efek dari kesalahan pengamatan ke- pada residunya. .iN(0,σ2) i
Yang mengatakan, dalam regresi berperilaku baik, residu sebagian besar dapat diperlakukan seperti perkiraan yang cukup berisik dari tidak dapat diamati istilah kesalahan. Ketika kami mempertimbangkan poin lebih jauh dari pusat, hal-hal bekerja agak kurang baik (residu menjadi kurang tertimbang pada kesalahan dan bobot pada kesalahan lainnya menjadi lebih merata).
Dengan banyak parameter, atau dengan tidak terdistribusi dengan baik, residu mungkin jauh lebih sedikit seperti kesalahan. Anda mungkin ingin mencoba beberapa contoh.X
sumber