Apakah penyesuaian untuk variabel tak terduga bias estimasi OLS?

Perlakuan buku teks biasa penyesuaian untuk variabel berlebihan di OLS menyatakan bahwa estimator masih tidak bias, tetapi mungkin memiliki varians yang lebih besar (lihat, misalnya, Greene, Analisis Ekonometrik, edisi ke-7, hal. 58).

Suatu hari saya menemukan pengobatan Judea Pearl dari Simpson's Paradox dan halaman web yang bagus yang mensimulasikan bagaimana "dimasukkannya variabel kontrol secara bertahap ke dalam model regresi mengubah tanda perkiraan hubungan sebab akibat dalam setiap langkah". Bagi saya, ini bertentangan dengan pernyataan di atas. Saya merasa ini bisa menjadi masalah yang sangat halus (meskipun sangat penting), jadi setiap penunjuk ke literatur lebih lanjut akan sangat membantu. Yang paling mengejutkan saya adalah bahwa Greene mengklaim dia memiliki bukti untuk penilaiannya.

least-squares bias causality simpsons-paradox Julian Schuessler
sumber

Jawaban:

Tidak ada kontradiksi.

Paragraf pertama di sana berbicara tentang variabel yang tidak perlu.

Jika paradoks Simpson berlaku, variabel tidak berlebihan.

Glen_b -Reinstate Monica
sumber

Dalam masalah seperti yang diajukan pada situs web, jika seseorang menyesuaikan untuk Z1 dan Z2, estimasi tersebut bias. Z1 tampaknya memang tidak berlebihan, tetapi bagaimana dengan Z2? Dengan konstruksi, itu tidak mempengaruhi X atau Y, namun pencantumannya bias estimasi.

Julian Schuessler

Tergantung pada hubungan yang tepat antara variabel-variabel ini, variabel berlebihan dengan korelasi yang sangat tinggi dengan salah satu variabel independen lainnya dapat menyebabkan tanda pembalikan. Ini juga tercakup dalam buku Greene di bagian tentang multikolinearitas. Dia menyatakan bahwa tingkat multikolinearitas yang tinggi dapat menyebabkan koefisien yang tidak stabil dan tidak dapat diandalkan karena singularitas dekat.

Andy

Saya seharusnya menyebutkan bahwa komentar sebelumnya lebih untuk @JulianSchuessler. Untuk jawaban Glen_b +1

Andy

Z2 tidak menyebabkan X atau Y, tetapi itu

d

$d$ -terhubungkan ke X melalui variabel U yang tidak teramati, dan ke Y melalui Z3. Jadi itu berkorelasi dengan X dan Y. Jika Anda mendefinisikan "berlebihan" sebagai "independen" maka Greene benar - mengkondisikan pada variabel Z independen X dan Y tidak akan membiaskan estimasi Anda (tidak termasuk kasus di mana independensi "tidak setia" untuk hubungan sebab akibat). Saya pikir multicollinearity adalah masalah yang terpisah. Bias dari pengondisian pada variabel "collider" tidak memerlukan ketergantungan yang sangat tinggi antara variabel, dan tidak meledakkan varian estimasi Anda.

Lizzie Silver

@ LizzieSilver: Terima kasih, ini juga pemahaman saya saat ini, setelah melihat lebih dalam ke dalam karya Pearl: Jika seseorang memblokir semua jalur backdoor dengan memasukkan regressor yang sesuai, seseorang mendapatkan perkiraan yang tidak bias. Namun, juga sangat jelas dari karya Pearl bahwa menyesuaikan variabel yang salah, yang mungkin berkorelasi dengan X dan Y, bias estimasi efek kausal dari variabel yang diminati. Jadi saya ingin tahu apa yang harus dilakukan dengan bukti ketidakberpihakan yang biasa. Mungkin regresi yang salah itu tidak bias, tetapi koefisien di dalamnya tidak sama dengan efek kausal tetapi sesuatu yang lain?

Julian Schuessler

Pertimbangkan model regresi linier yang dipostulatkan

y_{saya} = b_{0} + b_{1} X_{1 saya} + b_{2} X_{2 saya} + {kamu}_{saya}, saya = 1, . . ., n

$y_i = b_0 + b_1X_{1i} + b_2X_{2i} + u_i,\;\; i=1,...,n$

Sebagai soal aljabar (dan bukan asumsi stokastik), estimator OLS dalam notasi matriks adalah

\hat{b} = b + {(X^{'} X)}^{- 1} X^{'} kamu

$\hat b = b + \left(\mathbf X'\mathbf X\right)^{-1}\mathbf X'\mathbf u$

Nilai yang diharapkan tergantung pada matriks regressor

E (\hat{b} ∣ X) = b + {(X^{'} X)}^{- 1} X^{'} E (kamu ∣ X)

$E\left(\hat b\mid \mathbf X\right) = b + \left(\mathbf X'\mathbf X\right)^{-1}\mathbf X'E\left(\mathbf u\mid\mathbf X \right)$

Jadi: Jika "eksogenitas ketat" dari para regressor berkenaan dengan istilah error berlaku, atau, dengan kata lain, jika semua istilah error berarti independen dari semua regressor, masa lalu sekarang dan masa depan, (yang merupakan asumsi tolok ukur dalam Klasik Model Regresi Linier), yaitu jika $E\left(\mathbf u\mid\mathbf X \right)=\mathbf 0$ , kami akan memiliki

E (\hat{b} ∣ X) = b + 0 \Rightarrow E (\hat{b}) = b

$E\left(\hat b\mid \mathbf X\right) = b + \mathbf 0 \Rightarrow E(\hat b) = b$

menggunakan juga hukum harapan yang diulang-ulang.

Dengan semua hal di atas, apa yang dimaksud dengan "variabel tak berguna"? Saya ambil, itu berarti "tidak terkait" dengan variabel dependen. Tetapi "tidak berhubungan" harus diterjemahkan sebagai "independen secara stokastik". Tetapi jika itu independen dari variabel dependen, berarti independen dari istilah kesalahan (dan juga sangat eksogen sehubungan dengan itu), jadi semua hal di atas berlaku untuk setiap variabel berlebihan juga, dan penaksir OLS tidak bias bahkan jika, katakanlah, variabel $X_2$ adalah "berlebihan" dan model yang sebenarnya tidak mengandungnya.

Ini adalah bagaimana para ahli ekonometrika memahami masalah ini. Sekarang, dalam pengaturan yang lebih umum, "berlebihan" dapat berarti mengatakan, $X_2$ independen dari $y$ tergantung pada kehadiran $X_1$ (Yang saya duga lebih dekat dengan apa yang ada dalam pikiran Pearl). Masih, selama $X_2$ benar-benar eksogen dengan istilah kesalahan, hasil ketidakberpihakan berlaku.

Alecos Papadopoulos
sumber