Asumsi Kuadrat Terkecil

9

Asumsikan hubungan linier berikut: , di mana adalah variabel dependen, variabel independen tunggal dan istilah kesalahan.Yi=β0+β1Xi+uiX i u iYiXiui

Menurut Stock & Watson (Pengantar Ekonometrika; Bab 4 ), asumsi kuadrat terkecil ketiga adalah bahwa momen keempat dan adalah non-nol dan terbatas .u i ( 0 < E ( X 4 i ) <  dan  0 < E ( u 4 i ) < )Xiui(0<E(Xi4)< and 0<E(ui4)<)

Saya punya tiga pertanyaan:

  1. Saya tidak sepenuhnya memahami peran asumsi ini. Apakah OLS bias dan tidak konsisten jika asumsi ini tidak berlaku atau kita perlu asumsi ini untuk kesimpulan?

  2. Stock dan Watson menulis "asumsi ini membatasi kemungkinan menggambar pengamatan dengan nilai atau sangat besar ." Namun, intuisi saya adalah anggapan ini ekstrem. Apakah kita dalam masalah jika kita memiliki outlier besar (sedemikian rupa sehingga momen keempat besar) tetapi jika nilai-nilai ini masih terbatas? Ngomong-ngomong: Apa definisi yang mendasari pencilan?u iXiui

  3. Bisakah kita merumuskan ulang ini sebagai berikut: " dan adalah nol dan terbatas?"u iXiui

bujangan
sumber
Sayangnya saya tidak dapat menulis jawaban yang lengkap sekarang tetapi untuk menjawab pertanyaan Anda: 1, konsistensi OLS tidak berfungsi. 2, tidak ada definisi outlier yang jelas, tetapi OLS berfungsi dengan baik dalam sampel besar di hadapan outlier. 3, untuk kehidupan saya, saya tidak dapat memikirkan contoh di mana itu tidak benar, tetapi seseorang dapat membuktikan saya salah sehingga tidak ada jaminan
Repmat
5
Saya membantah "tetapi OLS bekerja dengan baik dalam sampel besar di hadapan outlier" ... mengambil outlier yang cukup besar dalam ruang-x (yaitu pengamatan yang berpengaruh) dan satu titik tunggal dapat memaksa LS untuk menjalaninya; jika itu juga merupakan pencilan dalam arah-Y, garis Anda masih akan menembus satu titik itu, tidak peduli seberapa ekstremnya.
Glen_b -Reinstate Monica
2
Pencilan mudah untuk didefinisikan. Mereka pengamatan tidak konsisten dengan pola sebagian besar data. Seperti ditunjukkan oleh contoh oleh Glen_b, titik tersebut memiliki pengaruh yang tidak semestinya pada kecocokan, pada batas melebihi semua pengamatan lain dalam dataset, yang mengarah pada perkiraan yang sangat bias.
user603
1
@ user603 Tentu ... dan jadi apa ... saya belum menemukan program / skrip yang secara otomatis mendeteksi outlier dan melakukannya dengan jelas sehingga kita semua setuju adalah cara yang benar ... jadi sementara saya setuju dengan sentimen Anda, itu tidak membantu OP
Repmat
@Repmat: silakan baca kembali pertanyaan OP. Komentar saya langsung menjawab salah satu kalimat di sana yang diselingi tanda tanya.
user603

Jawaban:

9

Anda tidak memerlukan asumsi pada momen ke-4 untuk konsistensi estimator OLS, tetapi Anda memang perlu asumsi pada momen dan ϵ yang lebih tinggi untuk normalitas asimptotik dan untuk secara konsisten memperkirakan apa yang dimaksud dengan matriks kovarians asimptotik.xϵ

Dalam beberapa hal, itu adalah poin matematika, teknis, bukan poin praktis. Agar OLS bekerja dengan baik dalam sampel terbatas dalam beberapa hal memerlukan lebih dari asumsi minimal yang diperlukan untuk mencapai konsistensi asimtotik atau normalitas seperti .n

Kondisi yang cukup untuk konsistensi:

Jika Anda memiliki persamaan regresi:

yi=xiβ+ϵi

OLS estimator b dapat ditulis sebagai: b = β + ( X ' Xb^

b^=β+(XXn)1(Xϵn)

Untuk konsistensi , Anda harus dapat menerapkan Hukum Angka Besar Kolmogorov atau, dalam kasus time-series dengan ketergantungan serial, sesuatu seperti Teorema Ergodik Karlin dan Taylor sehingga:

1nXXpE[xixi]1nXϵpE[xiϵi]

Asumsi lain yang dibutuhkan adalah:

  • adalah peringkat penuh dan karenanya matriks tersebut tidak dapat dibalik.E[xixi]
  • Regresor sudah ditentukan sebelumnya atau sangat eksogen sehingga .E[xiϵi]=0

Kemudian dan Anda mendapatkan b p ß(XXn)1(Xϵn)p0b^pβ

Jika Anda ingin teorema limit pusat berlaku maka Anda perlu asumsi pada momen yang lebih tinggi, misalnya, mana g i = x i ϵ i . The teorema limit sentral adalah apa yang memberi Anda normalitas asymptotic b dan memungkinkan Anda untuk berbicara tentang kesalahan standar. Untuk momen keduaE[gigi]gi=xiϵib^ ada, Anda membutuhkan momen ke-4 dari x dan ϵ untuk eksis. Anda ingin membantah ituE[gigi]xϵmanaΣ=E[xixi ϵ 2 i ]. Agar ini berfungsi,Σharus terbatas.n(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2]Σ

Diskusi yang bagus (yang memotivasi tulisan ini) diberikan di Hayashi's Econometrics . (Lihat juga hlm. 149 untuk momen ke-4 dan memperkirakan matriks kovarians.)

Diskusi:

Persyaratan ini pada momen ke-4 mungkin merupakan poin teknis dan bukan poin praktis. Anda mungkin tidak akan menemukan distribusi patologis di mana ini merupakan masalah dalam data sehari-hari? Untuk asumsi OLS yang lebih umum atau lainnya serba salah.

Pertanyaan yang berbeda, tidak diragukan lagi dijawab di tempat lain di Stackexchange, adalah seberapa besar sampel yang Anda butuhkan untuk sampel terbatas untuk mendekati hasil asimptotik. Ada beberapa perasaan di mana outlier fantastis mengarah pada konvergensi yang lambat. Misalnya, coba perkirakan rata-rata distribusi lognormal dengan varian yang sangat tinggi. Sampel rata-rata adalah penaksir yang konsisten dan tidak bias dari rata-rata populasi, tetapi dalam kasus log-normal dengan kelebihan kurtosis gila dll ... (ikuti tautan), hasil sampel yang terbatas benar-benar cukup buruk.

Hingga vs tak terbatas adalah perbedaan yang sangat penting dalam matematika. Itu bukan masalah yang Anda temui dalam statistik sehari-hari. Masalah praktis lebih banyak pada kategori kecil vs besar. Apakah varians, kurtosis dll ... cukup kecil sehingga saya dapat mencapai perkiraan yang masuk akal mengingat ukuran sampel saya?

Contoh patologis di mana estimator OLS konsisten tetapi tidak asimptotik normal

Mempertimbangkan:

Dimana x iN ( 0 , 1 ) tetapi ϵ i diambil dari distribusi-t dengan 2 derajat kebebasan sehingga V a r ( ϵ i ) =

yi=bxi+ϵi
xiN(0,1)ϵiVar(ϵi)=bb^b^ berdasarkan pada 10.000 simulasi regresi dengan 10.000 pengamatan. QQPlot untuk estimator (tidak menyatu dalam distribusi ke normal)

b^ϵiQQPlot untuk estimator (konvergen dalam distribusi normal)

Kode untuk menghasilkannya:

beta = [-4; 3.7];
n = 1e5;    
n_sim = 10000;    
for s=1:n_sim
    X = [ones(n, 1), randn(n, 1)];  
    u  = trnd(2,n,1) / 100;
    y = X * beta + u;

    b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));
Matthew Gunn
sumber
1
t(3)
Richard Hardy
1
n(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2]ΣΣϵiϵi2xixi
Matthew Gunn
6
  1. X

  2. Dasar-dasar teoretis dari statistik ini menyebabkan banyak kebingungan ketika dirangkum untuk aplikasi praktis. Tidak ada definisi pencilan, itu adalah konsep intuitif. Untuk memahaminya secara kasar, pengamatan harus menjadi titik pengungkit tinggi atau titik pengaruh tinggi, misalnya satu yang diagnostik penghapusan (DF beta) sangat besar, atau yang jarak Mahalanobis dalam prediktor besar (dalam statistik univariat) itu hanya skor Z). Tapi mari kita kembali ke masalah praktis: jika saya melakukan survei acak terhadap orang dan pendapatan rumah tangga mereka, dan dari 100 orang, 1 dari orang yang saya sampel adalah seorang jutawan, tebakan terbaik saya adalah bahwa jutawan mewakili 1% dari populasi . Dalam kuliah biostatistcs, para kepala sekolah ini didiskusikan dan ditekankan bahwa alat diagnostik apa pun pada dasarnya bersifat eksploratif [3].bukan "analisis yang mengecualikan pencilan adalah yang saya yakini", itu adalah, "menghilangkan satu titik sepenuhnya mengubah analisis saya."

  3. Kurtosis adalah kuantitas berskala yang tergantung pada momen kedua distribusi, tetapi asumsi varian terbatas, tidak nol untuk nilai-nilai ini diam-diam karena tidak mungkin bagi properti ini untuk menahan pada momen keempat tetapi tidak pada detik. Jadi pada dasarnya ya, tapi secara keseluruhan saya belum pernah memeriksa baik kurtosis atau momen keempat. Saya tidak menemukan mereka sebagai langkah praktis atau intuitif. Pada hari ini ketika histogram atau plot pencar dihasilkan dengan menjentikkan jari seseorang, penting bagi kita untuk menggunakan statistik diagnostik grafis kualitatif, dengan memeriksa plot-plot ini.

[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied

[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818

[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html

AdamO
sumber
Seperti yang telah ditunjukkan sebelumnya, intuisi seseorang tentang outlier rusak ketika ada lebih dari satu. Mereka tidak perlu menonjol dalam plot beta DF atau memiliki skor-z besar karena statistik ini sendiri dapat diombang-ambingkan oleh pencilan. Seperti yang kita bahas sebelumnya, pencilan , jika dibiarkan, akan menghasilkan koefisien bias kecuali Anda menghapusnya atau menggunakan teknik estimasi yang kuat untuk mereka.
user603
1
Saya pikir secara lebih umum, ketika mengungkapkan pendapat, jawaban Anda akan diperoleh dengan memasukkan petunjuk ke literatur yang relevan sehingga OP tahu mana dari pendapat ini yang dimiliki secara luas.
user603
@ user603 Untuk komentar pertama Anda, saya belum menunjuk DFbetas (atau alat diagnostik apa pun) sebagai metode eksklusif untuk mengidentifikasi pencilan, tetapi tentu saja bermanfaat. Ketika melakukan outlier semi-parametrik (rata-rata model benar) TIDAK bias model LS, Dapatkah Anda menghasilkan referensi atau bahkan contoh dalam hal apa pun selain LS non-parametrik? Komentar kedua Anda adalah yang baik, dan saya akan mengambil beberapa saat berikutnya untuk memasok kutipan.
AdamO
Pernyataan Anda, "OLS tidak bias dalam kondisi ini, itu hanya tidak konsisten" tidak benar. Momen yang lebih tinggi diperlukan untuk normalitas asimptotik. Mereka tidak diperlukan untuk konsistensi dalam sampel IID di mana Hukum Kolmogorov Nomor Besar berlaku.
Matthew Gunn