Apa konsekuensi dari memiliki varian yang tidak konstan dalam hal kesalahan dalam regresi linier?

Konsekuensi dari heteroskedastisitas adalah:

Kuadrat terkecil biasa (OLS) estimator masih konsisten tetapi tidak lagi efisien . $\hat{\mathbf{b}} = \left(X'X \right)X'\mathbf{y}$
Perkiraan di mana $\hat{\mathrm{Var}}\left(\mathbf{b} \right) = \left( X'X\right)^{-1} \hat{\sigma}^2$ adalahtidakestimator yang konsisten lagi untuk matriks kovarians dari estimator Anda . Mungkin bias dan tidak konsisten. Dan dalam praktiknya, itu secara substansial dapat meremehkan varians. $\hat{\sigma}^2 = \frac{1}{n-k} \mathbf{e'}{\mathbf{e}}$ $\hat{\mathbf{b}}$

Poin (1) mungkin bukan masalah utama; orang sering menggunakan estimator OLS biasa. Tetapi poin (2) harus dibenahi. Apa yang harus dilakukan?

Anda memerlukan kesalahan standar yang konsisten heteroskedastisitas . Pendekatan standar adalah bersandar pada asumsi sampel besar, hasil asimptotik dan memperkirakan varian menggunakan: $\mathbf{b}$

manadiperkirakan sebagai

\hat{V a r} (b) = \frac{1}{n} {(\frac{X^{'} X}{n})}^{- 1} S {(\frac{X^{'} X}{n})}^{- 1}

$\hat{\mathrm{Var}}\left(\mathbf{b}\right)=\frac{1}{n}\left( \frac{X'X}{n} \right)^{-1} S \left( \frac{X'X}{n} \right)^{-1}$

S

$S$

S = \frac{1}{n - k} \sum_{i} (x_{i} e_{i}) {(x_{i} e_{i})}^{'}

$S = \frac{1}{n-k}\sum_i \left(\mathbf{x}_i e_i\right) \left(\mathbf{x}_i e_i \right)'$

Ini memberikan kesalahan standar yang konsisten heteroskedastisitas. Mereka juga dikenal sebagai kesalahan standar Huber-White, kesalahan standar yang kuat, penaksir "sandwich", dll ... Setiap paket statistik standar dasar memiliki opsi untuk kesalahan standar yang kuat. Gunakan!

Beberapa komentar tambahan (pembaruan)

Jika heteroskedastisitas cukup besar, estimasi OLS reguler dapat memiliki masalah praktis yang besar. Meskipun masih merupakan penaksir yang konsisten, Anda mungkin memiliki masalah sampel kecil di mana seluruh perkiraan Anda didorong oleh beberapa, pengamatan varian tinggi. (Inilah yang disinggung @ seanv507 dalam komentar). Estimator OLS tidak efisien karena memberikan bobot lebih untuk pengamatan varian tinggi daripada optimal. Perkiraannya mungkin sangat bising.

Masalah dengan mencoba untuk memperbaiki inefisiensi adalah bahwa Anda mungkin juga tidak tahu matriks kovarians untuk istilah kesalahan, maka menggunakan sesuatu seperti GLS dapat membuat segalanya lebih buruk jika estimasi Anda dari istilah kesalahan matriks kovarians adalah sampah.

Juga, kesalahan standar Huber-White yang saya berikan di atas mungkin memiliki masalah besar dalam sampel kecil. Ada literatur panjang tentang topik ini. Misalnya. lihat Imbens dan Kolesar (2016), "Kesalahan Standar yang Kuat dalam Sampel Kecil: Beberapa Nasihat Praktis."

Arahan untuk studi lebih lanjut:

Jika ini adalah belajar sendiri, hal praktis berikutnya yang perlu dipertimbangkan adalah kesalahan standar berkerumun. Ini benar untuk korelasi sewenang-wenang dalam kelompok.

Matthew Gunn
sumber

Matius - Saya pikir masalah yang lebih praktis akan menjelaskan poin (1). misalnya tidakkah penduga akan 'bias' terhadap daerah-daerah dengan varians yang lebih tinggi? - yang akan menjadi masalah lebih besar jika daerah-daerah itu jauh dari rata-rata yang menyebabkan leverage tinggi.

seanv507

σ_{i}^{2}

$\sigma^2_i$

b

$\mathbf{b}$

σ_{i}^{2}

$\sigma^2_i$

b

$\mathbb b$

@ seanv507 jangan ragu untuk menambahkan jawaban Anda sendiri!

Matthew Gunn

Di tempat menggunakan kesalahan standar heteroskedastisitas-kuat (yang Ed Leamer dalam makalah 2010 "Tantalus di jalan menuju Asymptopia" panggilan White-washing ), orang juga dapat mencoba untuk memperbaiki perkiraan titik (bersama dengan estimasi varian) untuk heteroskedastisitas oleh WLS. Ini mungkin layak disebutkan dalam jawaban Anda.

Richard Hardy

Apa konsekuensi dari memiliki varian yang tidak konstan dalam hal kesalahan dalam regresi linier?

Jawaban:

Beberapa komentar tambahan (pembaruan)

Arahan untuk studi lebih lanjut: