Matriks varians-kovarians dari kesalahan dalam regresi linier

12

Bagaimana matriks kesalahan var / cov dihitung dengan paket analisis statistik dalam praktik?

Ide ini jelas bagi saya dalam teori. Tetapi tidak dalam praktik. Maksud saya, jika saya memiliki vektor variabel acak X=(X1,X2,...,Xn) , saya mengerti bahwa matriks varians / kovarian akan diberikan produk eksternal dari deviance-from-the -satu vektor: .Σ = E [ ( X - E ( X ) ) ( X - E ( X ) ) ]ΣΣ=E[(X-E(X))(X-E(X))]

Tetapi ketika saya memiliki sampel, kesalahan pengamatan saya bukan variabel acak. Atau lebih baik, tetapi hanya jika saya mengambil sejumlah sampel identik dari populasi yang sama. Kalau tidak, mereka diberikan. Jadi, sekali lagi pertanyaan saya adalah: bagaimana sebuah paket statistik dapat menghasilkan matriks var / cov mulai dari daftar pengamatan (yaitu sampel) yang disediakan oleh peneliti?

Riccardo
sumber
Kesalahan pengamatan Anda adalah fungsi dari variabel acak (y) dan karena itu sendiri acak. Bersyarat pada X saja, mereka tidak diberikan.
user603
1
Ya, saya sepenuhnya setuju akan hal itu. Tapi apa yang Anda katakan bekerja secara teori. Jika saya menggambar, katakanlah, 100 sampel acak dengan ukuran yang identik dari populasi yang sama, setiap kesalahan pengamatan akan menjadi variabel acak dengan (0, sigma ^ 2). Bagaimana jika, sebaliknya, saya hanya menggambar satu sampel? Dalam hal itu, rata-rata kesalahan dari setiap pengamatan adalah kesalahan itu sendiri. Apakah jelas apa yang saya katakan? Jadi, apa yang saya coba pahami adalah, bagaimana sebuah paket seperti Stata menghitung matriks varians-kovarian menggunakan hanya satu sampel yang diambil dari populasi?
Riccardo

Jawaban:

7

Matriks kovarians untuk model tipe biasanya dihitung sebagai ( X t X ) - 1 σ 2y=Xβ+ϵ manaσ2adalah jumlah sisa kotak,σ2=Σi(yi-Xi β )2dandadalah derajat kebebasan (biasanya jumlah pengamatan dikurangi jumlah parameter).

(XtX)-1σ2d
σ2σ2=saya(ysaya-Xsayaβ^)2d

Untuk kesalahan standar yang kuat dan atau berkelompok, produk sedikit dimodifikasi. Mungkin juga ada cara lain untuk menghitung matriks kovarians, misalnya seperti yang disarankan oleh ekspektasi produk luar.XtX

Simen Gaure
sumber
3
  1. Estimasi OLS untuk varian kesalahan , :σ2

s2=ε^ε^n-hal

Ini termasuk dalam Regresi Praktis dan Anova menggunakan R oleh Julian J. Faraway, halaman 21 .

Contoh perhitungan di R, berdasarkan model linear mil per galon kemunduran pada beberapa spesifikasi model mobil termasuk dalam mtcarsbasis data: ols = lm(mpg ~ disp + drat + wt, mtcars). Ini adalah perhitungan manual dan output dari lm()fungsi:

> rdf = nrow(X) - ncol(X)                    # Residual degrees of freedom
> s.sq = as.vector((t(ols$residuals) %*% ols$residuals) / rdf) 
>                                            # s square (OLS estimate of sigma square)
> (sigma = sqrt(s.sq))                       # Residual standar error
[1] 2.950507
> summary(ols)

Call:
lm(formula = mpg ~ disp + drat + wt, data = mtcars)
...
Residual standard error: 2.951 on 28 degrees of freedom
  1. β^

VSebuahr[β^X]=σ2(XX)-1

diperkirakan seperti pada halaman 8 dokumen online ini sebagai

VSebuahr^[β^X]=s2(XX)-1
> X = model.matrix(ols)                             # Model matrix X
> XtX = t(X) %*% X                                  # X transpose X
> Sigma = solve(XtX) * s.sq                         # Variance - covariance matrix
> all.equal(Sigma, vcov(ols))                       # Same as built-in formula
[1] TRUE
> sqrt(diag(Sigma))                                 # Calculated Std. Errors of coef's
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
> summary(ols)[[4]][,2]                             # Output of lm() function
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
Antoni Parellada
sumber
2

Y=βX+εYXβXY

Rajiv Sambasivan
sumber
Hai Rajiv, terima kasih atas koreksinya. Jadi, dapatkah Anda menjelaskan bagaimana Stata (atau paket statistik lainnya), mulai dari Y (dan epsilon), berhasil menurunkan matriks varians-kovarians Sigma?
Riccardo
e^e^
Setuju dengan user603. Silakan periksa halaman 21 dari cran.r-project.org/doc/contrib/Faraway-PRA.pdf . Ini didasarkan pada R tetapi termasuk diskusi yang baik tentang teori di balik regresi linier.
Rajiv Sambasivan
Hai keduanya, terima kasih, pertama-tama. Saya juga setuju dengan Anda, user603, dan saya mengharapkan jawaban ini. Tetapi jika matriks var / cov dihitung dengan menghitung produk eksternal dari vektor kesalahan, ini berarti bahwa cov di antara komponen kesalahan dalam banyak kasus tidak akan menjadi nol seperti yang disiratkan oleh hipotesis independensi. Baik? Inilah yang saya ragukan. Rajiv, saya melihat ke panduan bagus yang Anda sarankan tetapi tidak bisa menemukan jawaban. Terima kasih sebelumnya atas balasan di masa depan.
Riccardo