Asumsikan hubungan linier berikut: , di mana adalah variabel dependen, variabel independen tunggal dan istilah kesalahan.X i u i
Menurut Stock & Watson (Pengantar Ekonometrika; Bab 4 ), asumsi kuadrat terkecil ketiga adalah bahwa momen keempat dan adalah non-nol dan terbatas .u i ( 0 < E ( X 4 i ) < ∞ dan 0 < E ( u 4 i ) < ∞ )
Saya punya tiga pertanyaan:
Saya tidak sepenuhnya memahami peran asumsi ini. Apakah OLS bias dan tidak konsisten jika asumsi ini tidak berlaku atau kita perlu asumsi ini untuk kesimpulan?
Stock dan Watson menulis "asumsi ini membatasi kemungkinan menggambar pengamatan dengan nilai atau sangat besar ." Namun, intuisi saya adalah anggapan ini ekstrem. Apakah kita dalam masalah jika kita memiliki outlier besar (sedemikian rupa sehingga momen keempat besar) tetapi jika nilai-nilai ini masih terbatas? Ngomong-ngomong: Apa definisi yang mendasari pencilan?u i
Bisakah kita merumuskan ulang ini sebagai berikut: " dan adalah nol dan terbatas?"u i
sumber
Jawaban:
Anda tidak memerlukan asumsi pada momen ke-4 untuk konsistensi estimator OLS, tetapi Anda memang perlu asumsi pada momen dan ϵ yang lebih tinggi untuk normalitas asimptotik dan untuk secara konsisten memperkirakan apa yang dimaksud dengan matriks kovarians asimptotik.x ϵ
Dalam beberapa hal, itu adalah poin matematika, teknis, bukan poin praktis. Agar OLS bekerja dengan baik dalam sampel terbatas dalam beberapa hal memerlukan lebih dari asumsi minimal yang diperlukan untuk mencapai konsistensi asimtotik atau normalitas seperti .n→∞
Kondisi yang cukup untuk konsistensi:
Jika Anda memiliki persamaan regresi:
OLS estimator b dapat ditulis sebagai: b = β + ( X ' Xb^
Untuk konsistensi , Anda harus dapat menerapkan Hukum Angka Besar Kolmogorov atau, dalam kasus time-series dengan ketergantungan serial, sesuatu seperti Teorema Ergodik Karlin dan Taylor sehingga:
Asumsi lain yang dibutuhkan adalah:
Kemudian dan Anda mendapatkan b p → ß( X′Xn)- 1( X′ϵn) →hal0 b^→halβ
Jika Anda ingin teorema limit pusat berlaku maka Anda perlu asumsi pada momen yang lebih tinggi, misalnya, mana g i = x i ϵ i . The teorema limit sentral adalah apa yang memberi Anda normalitas asymptotic b dan memungkinkan Anda untuk berbicara tentang kesalahan standar. Untuk momen keduaE [ gsayag′saya] gsaya= xsayaϵsaya b^ ada, Anda membutuhkan momen ke-4 dari x dan ϵ untuk eksis. Anda ingin membantah itu √E [ gsayag′saya] x ϵ manaΣ=E[xix ′ i ϵ 2 i ]. Agar ini berfungsi,Σharus terbatas.n--√( 1n∑sayax′sayaϵsaya) →dN( 0 , Σ ) Σ = E [ xsayax′sayaϵ2saya] Σ
Diskusi yang bagus (yang memotivasi tulisan ini) diberikan di Hayashi's Econometrics . (Lihat juga hlm. 149 untuk momen ke-4 dan memperkirakan matriks kovarians.)
Diskusi:
Persyaratan ini pada momen ke-4 mungkin merupakan poin teknis dan bukan poin praktis. Anda mungkin tidak akan menemukan distribusi patologis di mana ini merupakan masalah dalam data sehari-hari? Untuk asumsi OLS yang lebih umum atau lainnya serba salah.
Pertanyaan yang berbeda, tidak diragukan lagi dijawab di tempat lain di Stackexchange, adalah seberapa besar sampel yang Anda butuhkan untuk sampel terbatas untuk mendekati hasil asimptotik. Ada beberapa perasaan di mana outlier fantastis mengarah pada konvergensi yang lambat. Misalnya, coba perkirakan rata-rata distribusi lognormal dengan varian yang sangat tinggi. Sampel rata-rata adalah penaksir yang konsisten dan tidak bias dari rata-rata populasi, tetapi dalam kasus log-normal dengan kelebihan kurtosis gila dll ... (ikuti tautan), hasil sampel yang terbatas benar-benar cukup buruk.
Hingga vs tak terbatas adalah perbedaan yang sangat penting dalam matematika. Itu bukan masalah yang Anda temui dalam statistik sehari-hari. Masalah praktis lebih banyak pada kategori kecil vs besar. Apakah varians, kurtosis dll ... cukup kecil sehingga saya dapat mencapai perkiraan yang masuk akal mengingat ukuran sampel saya?
Contoh patologis di mana estimator OLS konsisten tetapi tidak asimptotik normal
Mempertimbangkan:
Dimana x i ∼ N ( 0 , 1 ) tetapi ϵ i diambil dari distribusi-t dengan 2 derajat kebebasan sehingga V a r ( ϵ i ) = ∞
Kode untuk menghasilkannya:
sumber
Dasar-dasar teoretis dari statistik ini menyebabkan banyak kebingungan ketika dirangkum untuk aplikasi praktis. Tidak ada definisi pencilan, itu adalah konsep intuitif. Untuk memahaminya secara kasar, pengamatan harus menjadi titik pengungkit tinggi atau titik pengaruh tinggi, misalnya satu yang diagnostik penghapusan (DF beta) sangat besar, atau yang jarak Mahalanobis dalam prediktor besar (dalam statistik univariat) itu hanya skor Z). Tapi mari kita kembali ke masalah praktis: jika saya melakukan survei acak terhadap orang dan pendapatan rumah tangga mereka, dan dari 100 orang, 1 dari orang yang saya sampel adalah seorang jutawan, tebakan terbaik saya adalah bahwa jutawan mewakili 1% dari populasi . Dalam kuliah biostatistcs, para kepala sekolah ini didiskusikan dan ditekankan bahwa alat diagnostik apa pun pada dasarnya bersifat eksploratif [3].bukan "analisis yang mengecualikan pencilan adalah yang saya yakini", itu adalah, "menghilangkan satu titik sepenuhnya mengubah analisis saya."
Kurtosis adalah kuantitas berskala yang tergantung pada momen kedua distribusi, tetapi asumsi varian terbatas, tidak nol untuk nilai-nilai ini diam-diam karena tidak mungkin bagi properti ini untuk menahan pada momen keempat tetapi tidak pada detik. Jadi pada dasarnya ya, tapi secara keseluruhan saya belum pernah memeriksa baik kurtosis atau momen keempat. Saya tidak menemukan mereka sebagai langkah praktis atau intuitif. Pada hari ini ketika histogram atau plot pencar dihasilkan dengan menjentikkan jari seseorang, penting bagi kita untuk menggunakan statistik diagnostik grafis kualitatif, dengan memeriksa plot-plot ini.
[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied
[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818
[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html
sumber