Bagaimana residu berhubungan dengan gangguan yang mendasarinya?

9

Dalam metode kuadrat terkecil, kami ingin memperkirakan parameter yang tidak diketahui dalam model:

Yj=α+βxj+εj(j=1...n)

Setelah kami melakukan itu (untuk beberapa nilai yang diamati), kami mendapatkan garis regresi pas:

Yj=α^+β^x+ej(j=1,...n)

Sekarang jelas kami ingin memeriksa beberapa plot untuk memastikan bahwa asumsi terpenuhi. Misalkan Anda ingin memeriksa homoscedasticity, namun, untuk melakukan hal ini kita benar-benar memeriksa residual . Katakanlah Anda memeriksa plot nilai residual vs prediksi, jika itu menunjukkan kepada kita bahwa heteroskedastisitas sudah jelas, lalu bagaimana hubungannya dengan istilah gangguan ? Apakah heteroskedastisitas dalam residu menyiratkan heteroskedastisitas dalam istilah gangguan? ε jejεj

Danny
sumber

Jawaban:

3

Cara paling sederhana untuk memikirkannya adalah bahwa residu baku Anda ( ) adalah perkiraan gangguan yang sesuai ( ). Namun, ada beberapa kompleksitas tambahan. Sebagai contoh, meskipun kita mengasumsikan dalam model OLS standar bahwa kesalahan / gangguan independen, residualnya tidak semuanya. Secara umum, hanya residu dapat independen karena Anda telah menggunakan derajat kebebasan dalam memperkirakan model rata-rata dan residual dibatasi untuk menjumlahkan keε j = e j N - p - 1 p - 1 0ej=yjy^jε^j=ejNp1p10. Selain itu, standar deviasi residu baku sebenarnya tidak konstan. Secara umum, garis regresi dipasang sedemikian rupa sehingga rata-rata akan lebih dekat ke titik-titik dengan leverage yang lebih besar. Akibatnya, standar deviasi residu untuk titik-titik tersebut lebih kecil daripada titik leverage rendah. (Untuk lebih lanjut tentang ini, mungkin membantu untuk membaca dapat menjawab di sini: Menafsirkan plot.lm () , dan / atau di sini: Bagaimana melakukan analisis residual untuk prediktor independen biner / dikotomi dalam regresi linier? )

gung - Pasang kembali Monica
sumber
3
Untuk memperjelas, paling banyak residu Np-1 dapat bersifat independen, tetapi biasanya semuanya berkorelasi; alih-alih, ada transformasi linear dari mereka yang dapat memiliki komponen independen Np-1.
Glen_b -Reinstate Monica
@ Glen_b, poin bagus.
gung - Reinstate Monica
8

Hubungan antara dan adalah:ε^ε

ε^=(IH)ε

di mana , matriks topi, adalah .HX(XTX)1XT

Yang mengatakan bahwa adalah kombinasi linear dari semua kesalahan, tetapi biasanya sebagian besar bobot jatuh pada yang ke- .ε^ii

Berikut ini contoh, menggunakan carskumpulan data dalam R. Pertimbangkan titik bertanda ungu:

masukkan deskripsi gambar di sini

Sebut saja titik . Sisanya, , di mana untuk kesalahan lain berada di wilayah -0,02:iε^i0.98εi+jiwjεjwj

masukkan deskripsi gambar di sini

Kita dapat menulis ulang itu sebagai:

ε^i0.98εi+ηi

atau lebih umum

ε^i=(1hii)εi+ηi

di mana adalah th elemen diagonal dari . Demikian pula, di atas adalah . i H w j h i jhiiiHwjhij

Jika kesalahan adalah iid maka dalam contoh ini, jumlah tertimbang dari kesalahan-kesalahan lain akan memiliki standar deviasi yang sesuai dengan sekitar 1/7 efek dari kesalahan pengamatan ke- pada residunya. .iN(0,σ2)i

Yang mengatakan, dalam regresi berperilaku baik, residu sebagian besar dapat diperlakukan seperti perkiraan yang cukup berisik dari tidak dapat diamati istilah kesalahan. Ketika kami mempertimbangkan poin lebih jauh dari pusat, hal-hal bekerja agak kurang baik (residu menjadi kurang tertimbang pada kesalahan dan bobot pada kesalahan lainnya menjadi lebih merata).

Dengan banyak parameter, atau dengan tidak terdistribusi dengan baik, residu mungkin jauh lebih sedikit seperti kesalahan. Anda mungkin ingin mencoba beberapa contoh.X

Glen_b -Reinstate Monica
sumber
2
Ini adalah pendekatan yang tepat. Yang dibutuhkan di samping adalah argumen bahwa elemen diagonal biasanya "kecil". Itu dibuat dengan menunjukkan bahwa jejak sama dengan jumlah variabel independen (termasuk intersep, jika ada) - yang langsung dari fakta itu adalah matriks proyeksi. Perhatikan bahwa hasil ini tidak tergantung pada asumsi distribusi pada individu : mereka tidak perlu Normal. Itu juga terlepas dari formula aktual apa pun untuk ; itu adalah konsekuensi dari hitungan dimensi. ε i HHεiH
whuber
Tidak akankah keadaan lain di mana residu mungkin jauh lebih sedikit seperti kesalahan jika jumlah pengamatan kecil? Biasanya ketika @whuber menyatakan fakta bahwa jejak sama dengan jumlah variabel independen menyiratkan bahwa elemen diagonalnya kecil, tetapi ini tidak selalu demikian jika jumlah dari elemen-elemen itu sendiri kecil. H nnHn
Adam Bailey
@ AdamBailey Tentu itu terjadi ketika kecil ... tapi itu karena relatif besar bahkan jika hanya 1 atau 2.p / n pnp/np
Glen_b -Reinstate Monica