Asumsi untuk mendapatkan estimator OLS

14

Dapatkah seseorang menjelaskan secara singkat untuk saya, mengapa masing-masing dari enam asumsi diperlukan untuk menghitung estimator OLS? Saya hanya menemukan tentang multikolinieritas — bahwa jika ada, kami tidak dapat membalikkan (X'X) matriks dan pada gilirannya memperkirakan penaksir keseluruhan. Bagaimana dengan yang lain (misalnya, linearitas, nol kesalahan berarti, dll.)?

Ieva
sumber
1
Apakah Anda mencari penjelasan konseptual, atau apakah Anda memerlukan demonstrasi matematika?
gung - Reinstate Monica
4
Kuadrat terkecil biasa adalah prosedur numerik, Anda tidak perlu banyak asumsi untuk menghitungnya (selain dari keterbalikan). Asumsi diperlukan untuk membenarkan kesimpulan berdasarkan itu, lihat jawaban saya kemarin: stats.stackexchange.com/questions/148803/…
kjetil b halvorsen
1
Tepatnya "enam asumsi" apa yang Anda maksud? Anda hanya menyebutkan tiga.
whuber
Saya mengacu pada 1) linieritas 2) tidak adanya multikolinieritas 3) kesalahan rata-rata nol 4) kesalahan bola (homoscedasticity dan non autocorrelation) 5) regressor non-stokastik dan 6) distribusi normal. Jadi seperti yang saya mengerti dari jawaban di bawah ini, hanya tiga yang pertama diperlukan untuk mendapatkan estimator dan lainnya hanya diperlukan untuk memastikan estimator itu BIRU?
Ieva

Jawaban:

23

Anda selalu dapat menghitung penaksir OLS, selain dari kasus ketika Anda memiliki multikolinieritas sempurna. Dalam hal ini, Anda memiliki ketergantungan multilinear sempurna dalam matriks X Anda. Akibatnya, asumsi peringkat penuh tidak terpenuhi dan Anda tidak dapat menghitung penaksir OLS, karena masalah keterbalikan.

Secara teknis, Anda tidak perlu asumsi OLS lain untuk menghitung estimator OLS. Namun, menurut teorema Gauss-Markov Anda harus memenuhi asumsi OLS (asumsi clrm) agar estimator Anda menjadi BIRU.

Anda dapat menemukan diskusi ekstensif tentang teorema Gauss-Markov dan derivasi matematikanya di sini:

http://economictheoryblog.com/2015/02/26/markov_theorem/

Lebih jauh, jika Anda mencari gambaran umum dari asumsi OLS, yaitu berapa banyak yang ada, apa yang mereka butuhkan dan apa yang terjadi jika Anda melanggar asumsi OLS tunggal dapat menemukan diskusi yang rumit di sini:

http://economictheoryblog.com/2015/04/01/ols_assumptions/

Saya harap itu membantu, tepuk tangan!

Simon Degonda
sumber
14

Berikut ini didasarkan pada penampang sederhana, untuk deret waktu dan panel agak berbeda.

  1. Dalam populasi, dan karena itu dalam sampel, model dapat ditulis sebagai: Ini adalah asumsi linearitas, yang terkadang disalahpahami. Model harus linier dalam parameter - yaituβk. Anda bebas untuk melakukan apapun yang Anda inginkan denganxisendiri. Log, kuadrat dll. Jika ini bukan masalahnya, maka model tidak dapat diperkirakan oleh OLS - Anda memerlukan beberapa penduga nonlinier lainnya.
    Y=β0+β1x1++βkxk+u=Xβ+u
    βkxi
  2. Sampel acak (untuk penampang) Ini diperlukan untuk inferensi, dan properti sampel. Ini agak tidak relevan untuk mekanik murni OLS.
  3. Tidak ada collinearity sempurna ini berarti bahwa tidak ada hubungan yang sempurna antara . Ini adalah asumsi yang memastikan bahwa ( X X ) adalah nonsingular, sehingga ( X X ) - 1 ada.xi(XX)(XX)1
  4. Berarti bersyarat nol: . Ini berarti bahwa Anda telah menentukan model dengan benar sehingga: tidak ada variabel yang dihilangkan, dan bentuk fungsional yang Anda perkirakan benar relatif terhadap model populasi (tidak diketahui). Ini selalu merupakan asumsi bermasalah dengan OLS, karena tidak ada cara untuk mengetahui apakah itu benar atau tidak.E(u|X)=0
  5. Varians dari istilah kesalahan adalah konstan, tergantung pada semua : V a r ( u | X ) = σ 2 Sekali lagi ini tidak berarti apa-apa untuk mekanisme OLS, tetapi memastikan bahwa kesalahan standar yang biasa valid.XiVar(u|X)=σ2
  6. Normalitas; istilah kesalahan u tidak tergantung pada , dan mengikuti u N ( 0 , σ 2 ) . Sekali lagi ini tidak relevan untuk mekanika OLS, tetapi memastikan bahwa distribusi sampling dari β k adalah normal, ^ β kN ( β k , V a r ( ^ β k ) ) .XiuN(0,σ2)βkβk^N(βk,Var(βk^))

Sekarang untuk implikasinya.

  1. Di bawah 1 - 6 (asumsi model linier klasik) OLS adalah BIRU (penaksir tidak bias linier terbaik), terbaik dalam arti varian terendah. Ini juga efisien di antara semua penaksir linier, serta semua penaksir yang menggunakan beberapa fungsi x. Lebih penting lagi di bawah 1 - 6, OLS juga merupakan penaksir tidak bias varians minimum. Itu berarti bahwa di antara semua penaksir yang tidak memihak (bukan hanya linear) OLS memiliki varians terkecil. OLS juga konsisten.

  2. Di bawah 1 - 5 (asumsi Gauss-Markov) OLS adalah BIRU dan efisien (seperti dijelaskan di atas).

  3. Di bawah 1 - 4, OLS tidak bias, dan konsisten.

Sebenarnya OLS juga konsisten, di bawah asumsi lemah dari yaitu bahwa: ( 1 ) E ( u ) = 0 dan ( 2 ) C o v ( x j , u ) = 0 . Perbedaan dari asumsi 4 adalah bahwa, berdasarkan asumsi ini, Anda tidak perlu memakukan hubungan fungsional dengan sempurna.(4)(1) E(u)=0(2) Cov(xj,u)=0

Repmat
sumber
Saya pikir Anda melukis gambar terlalu gelap tentang kondisi nol rata-rata. Jika ada bias, maka meminimalkan jumlah penyimpangan kuadrat tidak akan menjadi hal yang tepat untuk dilakukan, tetapi di sisi lain, Anda dapat menangkap bias dengan menggeser persamaan regresi (menyerap bias menjadi ), dan kemudian Anda memang memiliki nilai 0. Dengan kata lain, 4 tidak mungkin diverifikasi dan mudah diabaikan. β0
user3697176
Maaf, tapi saya tidak setuju. Atau mungkin saya hanya salah paham dengan Anda? Bisakah Anda mengurangi atau memberikan referensi.
Repmat
Saya tidak berbicara tentang estimasi yang sengaja terdistorsi (seperti regresi ridge), yang saya percaya OP tidak tertarik. Saya berbicara tentang model bentuk di mana --- untuk beberapa alasan aneh --- sisa ϵ memiliki rata-rata α 0 . Dalam hal ini mudah untuk melakukan transformasi formal ke y = α + β 0 + β 1 x 1 + +y=β0+β1x1++βxxn+ϵϵα0 , di mana rata-rata η adalah nol. y=α+β0+β1x1++βxxn+ηη
user3697176
@ user3697176 Apa yang Anda tulis tidak benar. Saya baru saja mengirim jawaban untuk menjelaskan alasannya.
Alecos Papadopoulos
Jika asumsi 1 tidak puas, tidak bisakah kita masih menggunakan OLS untuk memperkirakan kovarians populasi (meskipun kita tahu tidak ada hubungan linier)?
maks
7

Sebuah komentar dalam pertanyaan lain menimbulkan keraguan tentang pentingnya kondisi , dengan alasan bahwa hal itu dapat diperbaiki dengan memasukkan istilah konstan dalam spesifikasi regresi, dan dengan demikian "dapat dengan mudah diabaikan".E(uX)=0

Ini tidak benar. Dimasukkannya istilah konstan dalam regresi akan menyerap rata-rata kondisional yang mungkin tidak nol dari istilah kesalahan jika kita mengasumsikan bahwa rata-rata bersyarat ini sudah konstan dan bukan fungsi dari regressor . Ini adalah asumsi penting yang harus dibuat secara independen apakah kita memasukkan istilah yang konstan atau tidak:

E(uX)=const.

Jika ini berlaku, maka mean non-nol menjadi gangguan yang bisa kita selesaikan dengan memasukkan istilah yang konstan.

Tetapi jika ini tidak berlaku , (yaitu jika rata-rata bersyarat bukan nol atau konstanta tidak nol ), dimasukkannya istilah konstan tidak menyelesaikan masalah: apa yang akan "diserap" dalam kasus ini adalah besarnya itu tergantung pada sampel spesifik dan realisasi dari para regressor. Pada kenyataannya koefisien yang tidak diketahui yang melekat pada deretan yang, tidak benar-benar konstan tetapi variabel, tergantung pada regressor melalui rata-rata bersyarat non-konstan dari istilah kesalahan.

Apa artinya ini? Untuk menyederhanakan, anggap kasus paling sederhana, di mana ( i indeks pengamatan) tetapi E ( u ix i ) = h ( x i ) . Yaitu bahwa istilah kesalahan berarti bebas dari regressor kecuali dari yang sezaman (dalam X kami tidak termasuk serangkaian yang).E(uiXi)=0iE(uixi)=h(xi)X

Asumsikan bahwa kami menentukan regresi dengan dimasukkannya istilah konstan (sebuah regresi dari serangkaian yang).

y=a+Xβ+ε

dan notasi pemadatan

y=Zγ+ε

di mana , Z = [ 1 : X ] , γ = ( a , β ) ' , ε = u - a .a=(a,a,a...)Z=[1:X]γ=(a,β)ε=ua

Maka estimator OLS akan menjadi

γ^=γ+(ZZ)1Zε

Untuk ketidakberpihakan kita membutuhkan . TapiE[εZ]=0

E[εixi]=E[uiaxi]=h(xi)a

ih(xi)

E[εZ]0E(γ^)γ

dan

E(uixi)=h(xi)h(xj)=E(ujxj), then even if we include a constant term in the regression, the OLS estimator will not be unbiased, meaning also that the Gauss-Markov result on efficiency, is lost.

Moreover, the error term ε has a different mean for each i, and so also a different variance (i.e. it is conditionally heteroskedastic). So its distribution conditional on the regressors differs across the observations i.

But this means that even if the error term ui is assumed normal, then the distribution of the sampling error γ^γ will be normal but not zero-mean mormal, and with unknown bias. And the variance will differ. So

If E(uixi)=h(xi)h(xj)=E(ujxj), then even if we include a constant term in the regression, Hypothesis testing is no longer valid.

In other words, "finite-sample" properties are all gone.

We are left only with the option to resort to asymptotically valid inference, for which we will have to make additional assumptions.

So simply put, Strict Exogeneity cannot be "easily ignored".

Alecos Papadopoulos
sumber
I'm not completely sure I understand this. Isn't assuming that the mean is a not a function of the regressors equivalent to assuming homoscedasticity?
Batman
@Batman To what part of my post are you referring to?
Alecos Papadopoulos
When you say "The inclusion of a constant term in the regression will absorb the possibly non-zero conditional mean of the error term if we assume that this conditional mean is already a constant and not a function of the regressors. This is the crucial assumption that must be made independently of whether we include a constant term or not." Isn't assuming that the conditional mean isn't a function of the regressors exactly what we're assuming when we assume homoscedasticity?
Batman
@Batman Homoskedasticity is an assumption about the variance. Assuming mean -independence does not imply that E(uj2x) is also a constant, which is also needed for conditional homoskedasticity. In fact, mean-independence, E(ux)=const. together with conditional heteroskedasticity, E(u2x)=g(x) is a standard model variant.
Alecos Papadopoulos