Untuk regresi linier sederhana, koefisien regresi dapat dihitung langsung dari matriks varians-kovarians , oleh mana adalah indeks variabel dependen, dan adalah indeks variabel penjelas.
Jika seseorang hanya memiliki matriks kovarians, apakah mungkin untuk menghitung koefisien untuk model dengan beberapa variabel penjelas?
ETA: Untuk dua variabel penjelas, tampak bahwa dan analog dengan . Saya tidak segera melihat cara memperluas ini ke tiga atau lebih variabel.
Jawaban:
Ya, matriks kovarians dari semua variabel - penjelas dan respons - berisi informasi yang diperlukan untuk menemukan semua koefisien, asalkan istilah intersep (konstan) dimasukkan dalam model. (Meskipun kovarian tidak memberikan informasi tentang istilah konstan, ia dapat ditemukan dari sarana data.)
Analisis
Biarkan data untuk variabel penjelas diatur sebagai vektor kolom berdimensi dan variabel respon menjadi vektor kolom , dianggap sebagai realisasi dari variabel acak . Estimasi kuadrat terkecil biasa dari koefisien dalam modeln x1,x2,…,xp y Y β^
diperoleh dengan merakit vektor kolom ke dalam array dan menyelesaikan sistem persamaan linearp+1 X0=(1,1,…,1)′,X1,…,Xp n×p+1 X
Ini setara dengan sistem
Eliminasi gaussian akan menyelesaikan sistem ini. Ini melanjutkan dengan berdampingan dengan matriks dan vektor ke dalam array dan mengurangi baris.p+1×p+1 1nX′X p+1 1nX′y p+1×p+2 A
Langkah pertama akan memeriksa . Menemukan ini bukan nol, maka hasil untuk mengurangi kelipatan yang tepat dari baris pertama dari baris yang tersisa untuk nol keluar entri yang tersisa di kolom pertama. Multiples ini akan menjadi dan jumlahnya dikurangi dari entri akan sama dengan . Ini hanya rumus untuk kovarians dan . Selain itu, angka yang tersisa di posisi sama dengan1n(X′X)11=1nX′0X0=1 A 1nX′0Xi=X¯¯¯¯i Ai+1,j+1=X′iXj X¯¯¯¯iX¯¯¯¯j Xi Xj i+1,p+2 1nX′iy−Xi¯¯¯¯¯¯y¯¯¯ , kovarian dengan .Xi y
Dengan demikian, setelah langkah pertama eliminasi Gaussian sistem dikurangi menjadi pemecahan
dan jelas - karena semua koefisien adalah kovarian - solusi itu dapat ditemukan dari matriks kovarians dari semua variabel.
(Ketika tidak dapat dibalik, solusinya dapat ditulis . Rumus yang diberikan dalam pertanyaan adalah kasus khusus dari ini ketika dan Menulis formula seperti itu secara eksplisit akan menjadi lebih dan lebih kompleks dengan tumbuh. Selain itu, mereka lebih rendah untuk perhitungan numerik, yang paling baik dilakukan dengan memecahkan sistem persamaan daripada dengan membalikkan matriks )C C−1(Cov(Xi,y))′ p=1 p=2 p C
Istilah konstan akan menjadi perbedaan antara rata-rata dan nilai rata-rata yang diprediksi dari taksiran, .y Xβ^
Contoh
Sebagai ilustrasi,
R
kode berikut membuat beberapa data, menghitung kovariansi mereka, dan memperoleh estimasi koefisien kuadrat terkecil hanya dari informasi itu. Ini membandingkannya dengan estimasi yang diperoleh dari estimator kuadrat-terkecillm
.Output menunjukkan kesepakatan antara dua metode:
sumber
cov(z)
y
danx
danbeta.hat
. Ituy
danx
merupakan bagian dari data asli. Apakah mungkin untuk mendapatkan intersep dari matriks kovarians dan cara sendiri? Bisakah Anda memberikan notasi?