Distribusi kesalahan jumlah kuadrat untuk regresi linier?

12

Saya tahu bahwa distribusi varians sampel Dari fakta bahwa dapat diekspresikan dalam bentuk matriks, (di mana A: simetris), dan itu bisa lagi diekspresikan dalam: (di mana Q: ortonormal, D: matriks diagonal).

(XiX¯)2σ2χ(n1)2
(XiX¯)2n1σ2n1χ(n1)2
(XX¯)2xAxxQDQx

Bagaimana dengan , dengan asumsi ? (Yiβ^0β^1Xi)2(Yβ0β1X)N(0,σ2)

Saya pikir

(Yiβ^0β^1Xi)2σ2χ(n2)2.

Tapi saya tidak tahu bagaimana membuktikan atau menunjukkannya.

Apakah didistribusikan persis seperti ?χ(n2)2

KH Kim
sumber
1
Apakah ini pekerjaan rumah? Jika demikian, silakan gunakan tag Pekerjaan Rumah.
MånsT
Tidak, tidak. Saya pikir itu benar karena bagaimanapun, jumlah kuadrat adalah kuadrat kombinasi linear dari Y yang diberikan konstanta X. Tetapi apakah itu? Bukti sederhana seperti ini akan sangat dihargai! math.stackexchange.com/questions/47009/…
KH Kim
Deskripsi yang Anda berikan dalam pertanyaan dan komentar Anda agak kacau. Sudahkah Anda menuliskan apa matriks AndaAharus untuk varians sampel? Apakah itu membantu Anda melihat cara menggeneralisasi?
kardinal
Dikoreksi untuk D. Saya pikir titik kritisnya adalah elemen diagonal D harus kira-kira seperti (1,1,1, ..., 1,0,0). Apakah ada cara untuk membuktikannya? atau Apakah ada cara untuk menunjukkan ituχ2(n)=χ2(n-2)+χ2(1)+χ2(1) dimana sse /σ2χ2(n-2), esaya2/σ2χ2(n)
KH Kim

Jawaban:

13

Kami dapat membuktikan ini untuk kasus yang lebih umum halvariabel dengan menggunakan "hat matrix" dan beberapa properti yang berguna. Hasil ini biasanya jauh lebih sulit untuk dinyatakan dalam istilah non-matriks karena penggunaan dekomposisi spektral.

Sekarang dalam versi matriks kuadrat terkecil, matriks topi adalah H=X(XTX)1XT dimana X telah n baris dan p+1 kolom (kolom yang untuk β0). Asumsikan peringkat kolom lengkap untuk kenyamanan - jika tidak Anda bisa menggantip+1 oleh peringkat kolom Xberikut ini. Kita dapat menulis nilai yang dipasang sebagaiY^saya=j=1nHsayajYj atau dalam notasi matriks Y^=HY. Dengan menggunakan ini, kita dapat menulis jumlah kuadrat sebagai:

saya=1(Y-Ysaya^)2σ2=(Y-Y^)T(Y-Y^)σ2=(Y-HY)T(Y-HY)σ2
=YT(sayan-H)Yσ2

Dimana sayan adalah matriks identitas ketertiban n. Langkah terakhir mengikuti dari fakta ituH adalah matriks idepotent, sebagai

H2=[X(XTX)-1XT][X(XTX)-1XT]=X(XTX)-1XT=H=HHT=HTH

Sekarang properti rapi dari matriks idepotent adalah bahwa semua nilai eigennya harus sama dengan nol atau satu. Membiarkane menunjukkan vektor eigen yang dinormalisasi H dengan nilai eigen l, kita dapat membuktikan ini sebagai berikut:

He=leH(He)=H(le)
L.HS=H2e=He=leRHS=lHe=l2e
le=l2el=0 atau 1

(perhatikan itu e tidak boleh nol karena harus memuaskan eTe=1) Sekarang karena H idepoten, sayan-H juga, karena

(InH)(InH)=IIHHI+H2=InH

Kami juga memiliki properti bahwa jumlah nilai eigen sama dengan jejak matriks, dan

tr(InH)=tr(In)tr(H)=ntr(X(XTX)1XT)=ntr((XTX)1XTX)
=ntr(Ip+1)=np1

Karenanya IH harus punya np1 nilai eigen sama dengan 1 dan p+1 nilai eigen sama dengan 0.

Sekarang kita dapat menggunakan dekomposisi spektral IH=ADAT dimana D=(Inp10[np1]×[p+1]0[p+1]×[np1]0[p+1]×[p+1]) dan A bersifat ortogonal (karena IHsimetris). Properti selanjutnya yang bermanfaat adalah ituHX=X. Ini membantu mempersempitA matriks

HX=X(IH)X=0ADATX=0DATX=0
(ATX)ij=0i=1,,np1j=1,,p+1

dan kami mendapatkan:

i=1(YYi^)2σ2=YTADATYσ2=i=1np1(ATY)i2σ2

Sekarang, di bawah model yang kita miliki YN(Xβ,σ2I) dan menggunakan teori normal standar yang kita miliki ATYN(ATXβ,σ2ATA)N(ATXβ,σ2I) menunjukkan bahwa komponen ATYindependen. Sekarang menggunakan hasil yang bermanfaat, kami memilikinya(ATY)iN(0,σ2) untuk i=1,,np1. Distribusi chi-square dengannp1 derajat kebebasan untuk jumlah kesalahan kuadrat segera menyusul.

probabilityislogic
sumber
Wow, terima kasih banyak. Benar-benar luar biasa! Bentuk matriks benar-benar terbayar! Singkatnya, SSE /σ2=YT(IH)Y dan IHidempoten. Matriks idempoten memiliki nilai eigen 0 atau 1. Jadi jumlah nilai eigen adalah jumlah nilai eigen 1. dantr(InH)=tr(In)tr(H)=tr(In)tr(X(XTX)1XT)=tr(In)tr((XTX)1XTX) sejak tr(AB)=tr(BA), dan tr(InH)menjadi n-p + 1. dan jumlah nilai eigen dari sebuah matriks adalah jumlah jejak dari matriks! danIH dapat dinyatakan sebagai ADAT. Jadi yang pertamaYT(IH)Y menjadi YTADATYdengan D dengan hanya np-1 diagonal 1's.
KH Kim
1
Jawaban bagus !! Hanya untuk menyajikan pendekatan lain, kita dapat memilih untuk mendefinisikan variabel normal multivariat yang ditransformasikanv:=AY dan masih akan mengikuti distribusi yang sama N(0,σ2I)jika kita menggunakan properti affine. Kemudian fraksi terakhirYADAYσ2=vDvσ2=v[I000]vσ2=i=1trD(viσ)2.
Daeyoung Lim