Sisa adalah perkiraan kami dari istilah kesalahan
Jawaban singkat untuk pertanyaan ini relatif sederhana: asumsi dalam model regresi adalah asumsi tentang perilaku istilah kesalahan, dan residu adalah perkiraan kami tentang persyaratan kesalahan. Juga , pemeriksaan perilaku residu yang diamati memberi tahu kita apakah asumsi tentang ketentuan kesalahan itu masuk akal.
Untuk memahami garis penalaran umum ini secara lebih rinci, ada baiknya untuk memeriksa secara rinci perilaku residu dalam model regresi standar. Di bawah regresi linier berganda standar dengan syarat kesalahan normal homoskedastik independen, distribusi vektor residual diketahui, yang memungkinkan Anda menguji asumsi distribusi yang mendasarinya dalam model regresi. Ide dasarnya adalah Anda mengetahui distribusi vektor residual di bawah asumsi regresi, dan kemudian memeriksa apakah nilai residu cocok dengan distribusi teoretis ini. Penyimpangan dari distribusi residual teoritis menunjukkan bahwa asumsi distribusi yang mendasari istilah kesalahan adalah salah dalam beberapa hal.
Jika Anda menggunakan distribusi kesalahan mendasar untuk model regresi standar dan Anda menggunakan estimasi OLS untuk koefisien, maka distribusi residu dapat ditunjukkan sebagai distribusi normal multivariat:ϵi∼IID N(0,σ2)
r=(I−h)ϵ∼N(0,σ2(I−h)),
di mana adalah matriks topi untuk regresi. Vektor residual meniru vektor kesalahan, tetapi matriks varians memiliki istilah multiplikasi tambahan . Untuk menguji asumsi regresi, kami menggunakan residu pelajar, yang memiliki distribusi T marginal:h=x(xTx)−1xTI−h
si≡riσ^Ext⋅(1−li)∼T(dfRes−1).
(Rumus ini adalah untuk residual pelajar yang eksternal, di mana penaksir varians mengecualikan variabel yang sedang dipertimbangkan. Nilai adalah nilai leverage, yang merupakan nilai diagonal dalam matriks topi . Residual yang di pelajarkan tidak independen, tetapi jika besar, mereka dekat dengan independen. Ini berarti bahwa distribusi marjinal adalah distribusi sederhana yang diketahui tetapi distribusi bersama rumit.) Sekarang, jika batas ada, maka dapat ditunjukkan bahwa penaksir koefisien adalah penaksir yang konsisten dari koefisien regresi yang sebenarnya, dan residu adalah penaksir yang konsisten dari istilah kesalahan sejati.li=hi,inlimn→∞(xTx)/n=Δ
Pada dasarnya, ini berarti bahwa Anda menguji asumsi distribusi yang mendasari untuk istilah kesalahan dengan membandingkan residu siswa dengan distribusi T. Masing-masing sifat yang mendasari distribusi kesalahan (linearitas, homoskedastisitas, kesalahan tidak berkorelasi, normalitas) dapat diuji dengan menggunakan sifat analog dari distribusi residu pelajar. Jika model ditentukan dengan benar, maka untuk besar residual harus dekat dengan istilah kesalahan yang benar, dan mereka memiliki bentuk distribusi yang sama.n
Penghilangan variabel penjelas dari model regresi menyebabkan bias variabel yang dihilangkan dalam penduga koefisien dan ini mempengaruhi distribusi residual. Baik mean dan varians dari vektor residual dipengaruhi oleh variabel yang dihilangkan. Jika istilah yang dihilangkan dalam regresi adalah maka vektor residual menjadi . Jika vektor data dalam matriks yang dihilangkan adalah vektor normal IID dan tidak tergantung pada istilah kesalahan makaZδr=(I−h)(Zδ+ϵ)ZZδ+ϵ∼N(μ1,σ2∗I) sehingga distribusi residu menjadi:
r=(I−h)(Zδ+ϵ)∼N(μ(I−h)1,σ2∗(I−h)).
Jika sudah ada istilah intersep dalam model (yaitu, jika vektor satuan ada dalam matriks desain) maka1(I−h)1=0, yang berarti bahwa bentuk distribusi standar residu dipertahankan. Jika tidak ada istilah intersep dalam model maka variabel yang dihilangkan dapat memberikan rata-rata non-nol untuk residual. Atau, jika variabel yang dihilangkan tidak IID normal maka dapat menyebabkan penyimpangan lain dari distribusi residu standar. Dalam kasus terakhir ini, tes residu tidak mungkin untuk mendeteksi apa pun yang dihasilkan dari adanya variabel yang dihilangkan; biasanya tidak mungkin untuk menentukan apakah penyimpangan dari distribusi residual teoritis terjadi sebagai akibat dari variabel yang dihilangkan, atau hanya karena hubungan yang keliru dengan variabel yang disertakan (dan bisa dibilang ini adalah hal yang sama dalam hal apapun).
Biasanya, istilah residu dan kesalahan memiliki arti yang sama. Jika model Anda tidak memiliki prediktor, E (Y) memang rata-rata Y. Dengan prediktor (seperti dalam model Anda), E (Y) adalah nilai Y yang diprediksi dari masing-masing X. Jadi residu adalah perbedaan antara masing-masing yang diamati dan diprediksi Y.
sumber