Konsekuensi dari heteroskedastisitas adalah:
Kuadrat terkecil biasa (OLS) estimator b = ( X ' X ) X ' y masih konsisten tetapi tidak lagi efisien .b^=(X′X)X′y
Perkiraan di mana σ 2 = 1Var^(b)=(X′X)−1σ^2adalahtidakestimator yang konsisten lagi untuk matriks kovarians dari estimator Anda b . Mungkin bias dan tidak konsisten. Dan dalam praktiknya, itu secara substansial dapat meremehkan varians.σ^2=1n−ke′eb^
Poin (1) mungkin bukan masalah utama; orang sering menggunakan estimator OLS biasa. Tetapi poin (2) harus dibenahi. Apa yang harus dilakukan?
Anda memerlukan kesalahan standar yang konsisten heteroskedastisitas . Pendekatan standar adalah bersandar pada asumsi sampel besar, hasil asimptotik dan memperkirakan varian menggunakan:b
manaSdiperkirakan sebagaiS=1
Var^(b)=1n(X′Xn)−1S(X′Xn)−1
S.
S=1n−k∑i(xiei)(xiei)′
Ini memberikan kesalahan standar yang konsisten heteroskedastisitas. Mereka juga dikenal sebagai kesalahan standar Huber-White, kesalahan standar yang kuat, penaksir "sandwich", dll ... Setiap paket statistik standar dasar memiliki opsi untuk kesalahan standar yang kuat. Gunakan!
Beberapa komentar tambahan (pembaruan)
Jika heteroskedastisitas cukup besar, estimasi OLS reguler dapat memiliki masalah praktis yang besar. Meskipun masih merupakan penaksir yang konsisten, Anda mungkin memiliki masalah sampel kecil di mana seluruh perkiraan Anda didorong oleh beberapa, pengamatan varian tinggi. (Inilah yang disinggung @ seanv507 dalam komentar). Estimator OLS tidak efisien karena memberikan bobot lebih untuk pengamatan varian tinggi daripada optimal. Perkiraannya mungkin sangat bising.
Masalah dengan mencoba untuk memperbaiki inefisiensi adalah bahwa Anda mungkin juga tidak tahu matriks kovarians untuk istilah kesalahan, maka menggunakan sesuatu seperti GLS dapat membuat segalanya lebih buruk jika estimasi Anda dari istilah kesalahan matriks kovarians adalah sampah.
Juga, kesalahan standar Huber-White yang saya berikan di atas mungkin memiliki masalah besar dalam sampel kecil. Ada literatur panjang tentang topik ini. Misalnya. lihat Imbens dan Kolesar (2016), "Kesalahan Standar yang Kuat dalam Sampel Kecil: Beberapa Nasihat Praktis."
Arahan untuk studi lebih lanjut:
Jika ini adalah belajar sendiri, hal praktis berikutnya yang perlu dipertimbangkan adalah kesalahan standar berkerumun. Ini benar untuk korelasi sewenang-wenang dalam kelompok.
Yah jawaban singkatnya adalah pada dasarnya model Anda salah yaitu
Jadi dalam kasus masalah heteroskedastisitas dengan memperkirakan matriks varians-kovarians terjadi, yang mengarah pada kesalahan standar yang salah dari koefisien, yang pada gilirannya menyebabkan salah t-statistik dan nilai-p. Secara singkat, jika istilah kesalahan Anda tidak memiliki varians konstan maka kuadrat terkecil biasa bukan cara yang paling efisien untuk estimasi. Lihat pertanyaan terkait ini .
sumber
"Heteroscedasticity" membuatnya sulit untuk memperkirakan standar deviasi sebenarnya dari kesalahan perkiraan. Hal ini dapat menyebabkan interval kepercayaan yang terlalu lebar atau terlalu sempit (khususnya mereka akan terlalu sempit untuk prediksi out-of-sample, jika varians kesalahan meningkat dari waktu ke waktu).
Juga, model regresi mungkin terlalu fokus pada subset data.
Referensi yang baik: Menguji asumsi regresi linier
sumber