Mengapa kita menggunakan residu untuk menguji asumsi kesalahan dalam regresi?

10

Misalkan kita memiliki model .Yi=β0+β1Xi1+β2Xi2++βkXik+ϵi

Regresi memiliki sejumlah asumsi, seperti kesalahan seharusnya didistribusikan secara normal dengan mean nol dan varian konstan. Saya telah diajarkan untuk memeriksa asumsi-asumsi ini menggunakan plot QQ normal untuk menguji normalitas residual dan plot residu vs pas untuk memeriksa bahwa residu bervariasi di sekitar nol dengan varians konstan.ϵiei=YiY^i

Namun, semua tes ini ada pada residual, bukan kesalahan.

Dari apa yang saya mengerti, kesalahan didefinisikan sebagai penyimpangan dari setiap pengamatan dari nilai rata-rata 'benar' mereka. Jadi, kita dapat menulis ϵi=YiE[Yi] . Kesalahan ini tidak dapat kami amati. *

Pertanyaan saya adalah ini: seberapa baik pekerjaan yang dilakukan oleh residu dalam meniru kesalahan?

Jika asumsi tampaknya puas pada residu, apakah ini berarti mereka puas pada kesalahan juga? Apakah ada cara lain (lebih baik) untuk menguji asumsi, seperti menyesuaikan model ke dataset pengujian dan mendapatkan residu dari sana?


* Selanjutnya, apakah ini tidak mengharuskan model ditentukan dengan benar ? Yaitu, bahwa respons benar-benar memiliki hubungan dengan prediktor dll. Dengan cara yang ditentukan oleh model.X1,X2,

Jika kita kehilangan beberapa prediktor (katakanlah, ), maka harapan bahkan tidak akan menjadi rata-rata yang sebenarnya, dan analisis lebih lanjut pada model yang salah tampaknya tidak ada gunanya.Xk+1 to XpE[Yi]=β0+β1Xi1+β2Xi2++βkXik

Bagaimana kita memeriksa apakah model itu benar?

mai
sumber

Jawaban:

9

Sisa adalah perkiraan kami dari istilah kesalahan

Jawaban singkat untuk pertanyaan ini relatif sederhana: asumsi dalam model regresi adalah asumsi tentang perilaku istilah kesalahan, dan residu adalah perkiraan kami tentang persyaratan kesalahan. Juga , pemeriksaan perilaku residu yang diamati memberi tahu kita apakah asumsi tentang ketentuan kesalahan itu masuk akal.

Untuk memahami garis penalaran umum ini secara lebih rinci, ada baiknya untuk memeriksa secara rinci perilaku residu dalam model regresi standar. Di bawah regresi linier berganda standar dengan syarat kesalahan normal homoskedastik independen, distribusi vektor residual diketahui, yang memungkinkan Anda menguji asumsi distribusi yang mendasarinya dalam model regresi. Ide dasarnya adalah Anda mengetahui distribusi vektor residual di bawah asumsi regresi, dan kemudian memeriksa apakah nilai residu cocok dengan distribusi teoretis ini. Penyimpangan dari distribusi residual teoritis menunjukkan bahwa asumsi distribusi yang mendasari istilah kesalahan adalah salah dalam beberapa hal.

Jika Anda menggunakan distribusi kesalahan mendasar untuk model regresi standar dan Anda menggunakan estimasi OLS untuk koefisien, maka distribusi residu dapat ditunjukkan sebagai distribusi normal multivariat:ϵiIID N(0,σ2)

r=(Ih)ϵN(0,σ2(Ih)),

di mana adalah matriks topi untuk regresi. Vektor residual meniru vektor kesalahan, tetapi matriks varians memiliki istilah multiplikasi tambahan . Untuk menguji asumsi regresi, kami menggunakan residu pelajar, yang memiliki distribusi T marginal:h=x(xTx)1xTIh

siriσ^Ext(1li)T(dfRes1).

(Rumus ini adalah untuk residual pelajar yang eksternal, di mana penaksir varians mengecualikan variabel yang sedang dipertimbangkan. Nilai adalah nilai leverage, yang merupakan nilai diagonal dalam matriks topi . Residual yang di pelajarkan tidak independen, tetapi jika besar, mereka dekat dengan independen. Ini berarti bahwa distribusi marjinal adalah distribusi sederhana yang diketahui tetapi distribusi bersama rumit.) Sekarang, jika batas ada, maka dapat ditunjukkan bahwa penaksir koefisien adalah penaksir yang konsisten dari koefisien regresi yang sebenarnya, dan residu adalah penaksir yang konsisten dari istilah kesalahan sejati.li=hi,inlimn(xTx)/n=Δ

Pada dasarnya, ini berarti bahwa Anda menguji asumsi distribusi yang mendasari untuk istilah kesalahan dengan membandingkan residu siswa dengan distribusi T. Masing-masing sifat yang mendasari distribusi kesalahan (linearitas, homoskedastisitas, kesalahan tidak berkorelasi, normalitas) dapat diuji dengan menggunakan sifat analog dari distribusi residu pelajar. Jika model ditentukan dengan benar, maka untuk besar residual harus dekat dengan istilah kesalahan yang benar, dan mereka memiliki bentuk distribusi yang sama.n

Penghilangan variabel penjelas dari model regresi menyebabkan bias variabel yang dihilangkan dalam penduga koefisien dan ini mempengaruhi distribusi residual. Baik mean dan varians dari vektor residual dipengaruhi oleh variabel yang dihilangkan. Jika istilah yang dihilangkan dalam regresi adalah maka vektor residual menjadi . Jika vektor data dalam matriks yang dihilangkan adalah vektor normal IID dan tidak tergantung pada istilah kesalahan makaZδr=(Ih)(Zδ+ϵ)ZZδ+ϵN(μ1,σ2I) sehingga distribusi residu menjadi:

r=(Ih)(Zδ+ϵ)N(μ(Ih)1,σ2(Ih)).

Jika sudah ada istilah intersep dalam model (yaitu, jika vektor satuan ada dalam matriks desain) maka1(Ih)1=0, yang berarti bahwa bentuk distribusi standar residu dipertahankan. Jika tidak ada istilah intersep dalam model maka variabel yang dihilangkan dapat memberikan rata-rata non-nol untuk residual. Atau, jika variabel yang dihilangkan tidak IID normal maka dapat menyebabkan penyimpangan lain dari distribusi residu standar. Dalam kasus terakhir ini, tes residu tidak mungkin untuk mendeteksi apa pun yang dihasilkan dari adanya variabel yang dihilangkan; biasanya tidak mungkin untuk menentukan apakah penyimpangan dari distribusi residual teoritis terjadi sebagai akibat dari variabel yang dihilangkan, atau hanya karena hubungan yang keliru dengan variabel yang disertakan (dan bisa dibilang ini adalah hal yang sama dalam hal apapun).

Ben - Pasang kembali Monica
sumber
1
Terima kasih atas tanggapannya yang komprehensif. Bisakah saya bertanya di mana Anda mendapat ? Sepertinya saya bahwar=(Ih)ϵr=YY^=(Ih)Y
mai
1
Karena Anda miliki sehingga . hx=x(Ih)x=0r=(Ih)Y=(Ih)(xβ+ϵ)=(Ih)ϵ
Ben - Reinstate Monica
-4

Biasanya, istilah residu dan kesalahan memiliki arti yang sama. Jika model Anda tidak memiliki prediktor, E (Y) memang rata-rata Y. Dengan prediktor (seperti dalam model Anda), E (Y) adalah nilai Y yang diprediksi dari masing-masing X. Jadi residu adalah perbedaan antara masing-masing yang diamati dan diprediksi Y.

Tim Bednall
sumber
3
"Biasanya, istilah residu dan kesalahan memiliki arti yang sama." Saya tidak berpikir ini benar - sejauh yang saya mengerti, residu mengukur perbedaan antara nilai yang diamati dan nilai yang diprediksi, sementara kesalahan mengukur perbedaan antara nilai yang diamati dan nilai rata-rata yang sebenarnya.
Mai
1
Kesalahan dan residual yang terus terang bukan sinonim. Yang pertama adalah variabel acak, yang terakhir adalah realisasi.
Richard Hardy