Menurut teks yang saya gunakan, rumus untuk varian dari sisa diberikan oleh:
Saya menemukan ini sulit untuk percaya karena residual adalah perbedaan antara nilai diamati dan nilai dipasang; jika seseorang menghitung varians dari perbedaan, paling tidak saya akan mengharapkan beberapa "plus" dalam ekspresi yang dihasilkan. Setiap bantuan dalam memahami derivasi akan dihargai.
Jawaban:
Intuisi tentang tanda-tanda "plus" yang terkait dengan varians (dari fakta bahwa bahkan ketika kita menghitung varians dari perbedaan variabel acak independen, kami menambahkan variansnya) benar tetapi tidak lengkap secara fatal: jika variabel acak yang terlibat tidak independen , maka kovarian juga terlibat - dan kovarian mungkin negatif. Ada ungkapan yang hampir seperti ungkapan dalam pertanyaan yang dianggap "harus" oleh OP (dan saya), dan itu adalah varian dari kesalahan prediksi , yang menyatakannya , di mana :y 0 = β 0 + β 1 x 0 + u 0e0=y0−y^0 y0=β0+β1x0+u0
Perbedaan penting antara varians dari kesalahan prediksi dan varians dari estimasi kesalahan (yaitu dari sisa), adalah bahwa istilah kesalahan dari pengamatan diprediksi tidak berkorelasi dengan estimator , karena nilai itu tidak digunakan dalam membangun estimator dan menghitung estimasi, menjadi nilai out-of-sample.y0
Aljabar untuk keduanya berlangsung dengan cara yang persis sama hingga titik (menggunakan bukan ), tetapi kemudian menyimpang. Secara khusus:i0 i
Dalam regresi linier sederhana , , varian dari estimator masih Var ( u i ) = σ 2 β = ( β 0 , ß 1 ) 'yi=β0+β1xi+ui Var(ui)=σ2 β^=(β^0,β^1)′
Kita punya
dan sebagainya
Kita punya
Begitu
yang berarti itu
The residu -th didefinisikan sebagaisaya
Koefisien yang sebenarnya diperlakukan sebagai konstanta, regressor adalah tetap (atau tergantung pada itu), dan memiliki nol kovarians dengan istilah kesalahan, tetapi para estimator berkorelasi dengan istilah kesalahan, karena estimator mengandung variabel dependen, dan variabel dependen berisi istilah kesalahan. Jadi kita punya
Kemasi sedikit untuk mendapatkan
Istilah dalam tanda kurung besar memiliki struktur yang persis sama dengan varians dari kesalahan prediksi, dengan satu-satunya perubahan adalah bahwa alih-alih kita akan memiliki (dan varians akan menjadi dari dan bukan dari ). Istilah kovarians terakhir adalah nol untuk kesalahan prediksi karena dan karenanya adalah tidak termasuk dalam estimator, tetapi tidak nol untuk kesalahan estimasi karena dan karenanya merupakan bagian dari sampel dan sehingga termasuk dalam penduga Kita punyax 0 e 0 u i y 0 u 0 y i u ixsaya x0 e0 kamu^saya y0 kamu0 ysaya kamusaya
substitusi terakhir dari cara dihitung. Melanjutkan,β^0
Memasukkan ini ke dalam ekspresi untuk varian residual, kami dapatkan
Jadi topi ke teks OP menggunakan.
(Saya telah melewatkan beberapa manipulasi aljabar, tidak heran aljabar OLS semakin jarang diajarkan saat ini ...)
BEBERAPA INTUISI
Jadi tampaknya apa yang berfungsi "terhadap" kami (varian lebih besar) saat memprediksi, berfungsi "untuk kami" (varian lebih rendah) saat memperkirakan. Ini adalah titik awal yang baik bagi seseorang untuk merenungkan mengapa kecocokan yang sangat baik mungkin merupakan pertanda buruk untuk kemampuan prediksi model (betapapun kontra-intuitif ini mungkin terdengar ...).1/n varians dari residu yang terkait dengan pengamatan ini akan menjadi ... semakin pengamatan menyimpang, semakin sedikit menyimpang residu ... Ini adalah variabilitas dari regressor yang bekerja untuk kita, dengan "mengambil tempat" dari kesalahan yang tidak diketahui- variabilitas.
Fakta bahwa kami memperkirakan nilai yang diharapkan dari regressor, menurunkan varians sebesar . Mengapa? karena dengan memperkirakan , kami "menutup mata" pada beberapa variabilitas kesalahan yang ada dalam sampel, karena pada dasarnya kami memperkirakan nilai yang diharapkan. Selain itu, semakin besar penyimpangan pengamatan regressor dari sampel rata-rata regressor,
Tapi itu bagus untuk estimasi . Untuk prediksi , hal-hal yang sama berbalik melawan kita: sekarang, dengan tidak memperhitungkan, betapapun tidak sempurna, variabilitas dalam (karena kita ingin memprediksikannya), penaksir tidak sempurna kita yang diperoleh dari sampel menunjukkan kelemahan mereka: kami memperkirakan sampel berarti, kita tidak tahu nilai yang diharapkan benar-varians meningkat. Kami memiliki yang jauh dari mean sampel yang dihitung dari pengamatan lain -juga buruk, varians kesalahan prediksi kami mendapat dorongan lain, karena prediksi akan cenderung tersesat ... lebih bahasa ilmiah "prediktor optimal dalam arti mengurangi varians kesalahan prediksi, mewakili ay0 x0 y^0 penyusutan terhadap rata-rata variabel berdasarkan prediksi ". Kami tidak mencoba untuk mereplikasi variabilitas variabel dependen -kami hanya mencoba untuk tetap" dekat dengan rata-rata ".
sumber
Maaf untuk jawaban yang agak singkat, mungkin terlalu abstrak dan kurang eksposisi intuitif yang diinginkan, tetapi saya akan mencoba untuk kembali dan menambahkan beberapa detail lagi nanti. Setidaknya itu pendek.
Diberi ,H=X( XTX)- 1XT
Karenanya
Dalam kasus regresi linier sederhana ... ini memberikan jawaban dalam pertanyaan Anda.
Jawaban ini juga masuk akal: karena berkorelasi positif dengan , varians perbedaannya harus lebih kecil dari jumlah varians.y^saya ysaya
-
Edit: Penjelasan mengapa adalah idempoten .( Saya-H)
(i) adalah idempoten:H
(ii)( Saya- H)2= Saya2- sayaH-Hsaya+ H2=Saya- 2 H+H=Saya- H
sumber