Apakah estimasi koefisien regresi tidak berkorelasi?

11

Pertimbangkan regresi sederhana (normalitas tidak diasumsikan): mana dengan mean 0 dan standar deviasi \ sigma . Apakah Estimasi Kuadrat Terkecil dari a dan b tidak berkorelasi?e i

Yi=a+bXi+ei,
eiσ a b0σab
arnab
sumber
2
Bagaimana menurut anda? en.wikipedia.org/wiki/Ordinary_least_squares , bagian "Properti sampel terbatas". Pertanyaan ini dijawab berkali-kali di situs ini.
mpiktas

Jawaban:

15

Ini merupakan pertimbangan penting dalam merancang eksperimen, di mana dapat diinginkan untuk tidak memiliki (atau sangat sedikit) korelasi di antara perkiraan a^ dan dan b^ . Kurangnya korelasi dapat dicapai dengan mengendalikan nilai-nilai Xi .


Untuk menganalisis efek pada estimasi, nilai-nilai (yang merupakan vektor baris dengan panjang ) dirakit secara vertikal menjadi matriks , matriks desain, memiliki baris sebanyak data, dan (jelas ) dua kolom. sesuai dirakit menjadi satu vektor panjang (kolom) . Dalam istilah-istilah ini, menulis untuk koefisien yang dirangkai, modelnya adalah ( 1 , X i ) 2 X Y i y β = ( a , b ) Xi(1,Xi)2XYiyβ=(a,b)

E(Y)=Xβ

The yang (biasanya) diasumsikan variabel acak independen yang varians adalah konstan untuk beberapa diketahui . Pengamatan tergantung diambil menjadi salah satu realisasi dari vektor-dihargai variabel acak .σ 2 σ > 0 y YYiσ2σ>0yY

Solusi OLS adalah

β^=(XX)1Xy,

dengan asumsi invers matriks ini ada. Dengan demikian, menggunakan properti dasar dari perkalian matriks dan kovarian,

Cov(β^)=Cov((XX)1XY)=((XX)1Xσ2X(XX)1)=σ2(XX)1.

Matriks hanya memiliki dua baris dan dua kolom, sesuai dengan parameter model . Korelasi dengan sebanding dengan elemen-elemen off-diagonal yang oleh Peraturan Cramer sebanding dengan dot produk dari dua kolom . Karena salah satu kolom adalah semua s, yang produk dengan kolom lainnya (terdiri dari ) adalah jumlah mereka, kami menemukan (a,b) a b (X'X) - 1 ,X1Xi(XX)1(a,b)a^b^(XX)1,X1Xi

b Xia^ dan tidak berkorelasi jika dan hanya jumlah (atau ekuivalen rata-rata) dari adalah nol.b^Xi

Kondisi orthogonality ini sering dicapai dengan memasukkan kembali (dengan mengurangi rata-rata dari masing-masing). Meskipun ini tidak akan mengubah estimasi kemiringan , itu memang mengubah estimasi intersepsi . Apakah itu penting atau tidak tergantung pada aplikasi.b aXib^a^


Analisis ini berlaku untuk regresi berganda: matriks desain akan memiliki kolom untuk variabel independen (kolom tambahan terdiri dari s) dan akan menjadi vektor dengan panjang , tetapi jika tidak semuanya berjalan seperti sebelumnya. p 1 β p + 1p+1p1βp+1

Dalam bahasa konvensional, dua kolom disebut orthogonal ketika produk titiknya nol. Ketika satu kolom (katakanlah kolom ) ortogonal ke semua kolom lainnya, itu adalah fakta aljabar yang mudah ditunjukkan bahwa semua entri off-diagonal di baris dan kolom dari adalah nol (yaitu, komponen dan untuk semua adalah nol). Karena itu,X i i i ( X X ) - 1 i j j i j iXXiii(XX)1ijjiji

Dua perkiraan koefisien regresi berganda dan tidak berkorelasi kapan saja (atau keduanya) dari kolom yang sesuai dari matriks desain ortogonal dengan semua kolom lainnya. β jβ^iβ^j

Banyak desain eksperimental standar terdiri dari memilih nilai-nilai variabel independen untuk membuat kolom saling orthogonal. Ini "memisahkan" estimasi yang dihasilkan dengan menjamin - sebelum ada data yang dikumpulkan! - bahwa estimasi tersebut tidak berkorelasi. (Ketika respons memiliki distribusi normal, ini berarti estimasi akan independen, yang sangat menyederhanakan interpretasinya.)

whuber
sumber
Jawabannya mengatakan "[...] elemen off-diagonal, yang hanya merupakan produk titik dari dua kolom X." Namun ini berlaku untuk , bukan ? ( X X ) - 1XX(XX)1
Heisenberg
@ Heisenberg Itu poin bagus. Saya tidak jelas tentang ini. Tidak ada ambiguitas dalam kasus dua kolom, tapi saya perlu memikirkan bagaimana meningkatkan presentasi untuk kasus lebih banyak kolom.
whuber
@ Heisenberg Saya berterima kasih atas pengamatan perseptif Anda: memungkinkan saya untuk memperbaiki kesalahan besar dalam diskusi kasus regresi berganda.
whuber