Apa yang terjadi jika "variabel kontrol" juga endogen?

13

Saya bekerja di Ekonomi Politik, dan banyak model termasuk variabel kontrol "tidak bersalah" seperti populasi, ketidaksetaraan, warisan kolonial, dll. Sehingga penulis dapat mengklaim ketidakberpihakan pada variabel independen yang mereka minati.

Tetapi jika salah satu dari variabel kontrol ini adalah endogen terhadap beberapa variabel yang dihilangkan, tidakkah ini mencemari ketidakberpihakan SEMUA variabel independen?

Jika itu benar, lalu apa yang bisa kita lakukan? Biarkan variabel kontrol tersebut keluar dan mereka menyebabkan bias variabel yang dihilangkan sendiri. Sertakan yang ada di dalam dan mereka akan mencemari semua yang ada dalam model.

Contoh: Seorang peneliti ingin mengetahui apakah ketidaksetaraan mengarah pada kekerasan, dan ia mengontrol beberapa hal: Melihat bahwa Ketidaksetaraan cenderung bersifat endogen ( karena variabel Tingkat altruisme yang dihilangkan ), ia akan mencoba menemukan variabel instrumental untuk Ketimpangan . Tetapi bukankah Pertumbuhan dan Pembangunan kemungkinan endogen (berkorelasi dengan Tingkat altruisme ) juga?

Violence=Inequality+Growth+Development+ϵ

Contoh ini mungkin terlihat konyol, tetapi poin saya dalam pekerjaan Ekonomi / Pembangunan Politik, ada begitu banyak faktor yang berperan (belum dihilangkan) sehingga saya khawatir banyak variabel yang termasuk dalam LHS bersifat endogen. Namun seringkali, peneliti hanya mencari instrumen untuk variabel independen peliharaannya saja.

Heisenberg
sumber
Namun hal lain yang perlu dipertimbangkan adalah apa yang disebut masalah "kontrol buruk" - situasi ketika kontrol adalah variabel hasil itu sendiri. Saya menyarankan Anda untuk membaca Bagian 3.2.3 dalam buku Angrist dan Pischke yang terkenal dengan "Mostly Harmless Econometrics" untuk memahami topik ini dan mengapa itu penting jika Anda ingin memiliki pemahaman yang lebih baik tentang pertanyaan Anda.
MauOlivares

Jawaban:

10

"Tetapi jika salah satu dari variabel kontrol ini bersifat endogen terhadap beberapa variabel yang dihilangkan, bukankah ini mencemari ketidakberpihakan SEMUA variabel independen?"

Saya tidak ingin terlalu menekankan hal ini, tetapi perlu disebutkan bahwa ini tidak benar secara umum. Derivasi berikut diharapkan akan memberikan pemahaman tentang "kontaminasi" yang Anda sebutkan. Sebagai contoh tandingan sederhana, anggaplah bahwa proses menghasilkan data diberikan oleh mana Z tidak teramati. Misalkan C o v ( X 1 , Z ) = 0 , C o v ( X 2

Y=X1β1+X2β2+Zγ+ε,
ZCHaiv(X1,Z)=0 , dan C o v ( X 1 , X 2 ) = 0 . Kemudian, jelas bahwa X 2 "endogen." Tapi perhatikan bahwa karena C o v ( X 1 , Z ) = 0 , perkiraan kami dari β 1 akan tetap ok: PlimCHaiv(X2,Z)0CHaiv(X1,X2)=0X2CHaiv(X1,Z)=0β1 manaX1 =M2X1danM2=[I-X2(X2 X2)-1X2 ]. KarenaCov(X1,X2)=0,X1
Plimβ^1=β1+γCHaiv(X1,Z)VSebuahr(X1)=β1,
X1=M.2X1M.2=[saya-X2(X2X2)-1X2]CHaiv(X1,X2)=0 . Jadi C o v ( X * 1 , Z ) = 0 .X1=X1CHaiv(X1,Z)=0

"Apa yang bisa kita lakukan?"

Salah satu tantangan utama dalam melakukan ekonometrika yang baik adalah memikirkan strategi identifikasi potensial. Dalam jenis situasi yang Anda gambarkan, mungkin tidak ada yang dapat Anda lakukan selain mencoba mendekati masalah dengan cara yang berbeda.

jmbejara
sumber
Meskipun secara teknis Anda benar, saya tidak akan menekankan poin ini. Saya lebih suka mengatakan bahwa secara umum, kita tidak bisa mengesampingkan bias dari salah satu variabel, daripada mengatakan dalam beberapa skenario itu ok , well, karena kita biasanya tidak tahu DGP.
FooBar
1) Bisakah Anda mengarahkan saya untuk referensi di mana β berasal dengan cara ini? Saya tidak diajarkan ini di ekonometrik saya. 2) Di mana Anda menggunakan C o v ( X 1 , Z ) = 0 dalam bukti? Sepertinya C o v ( X 1 , X - 2 ) = 0 adalah cukup. 3) Saya setuju dengan @FooBar bahwa C o v ( X 1 , X 2 ) = 0 adalah pengecualian, bukan norma. Memang kalau Cβ^Cov(X1,Z)=0Cov(X1,X2)=0Cov(X1,X2)=0 kita tidak akan repot-repot untuk mengontrol X 2 di tempat pertama (kecuali untuk meningkatkan presisi). Cov(X1,X2)=0X2
Heisenberg
@ FooBar, saya setuju. Saya telah memperbarui posting untuk menekankan bahwa ini adalah kasus khusus. Sejauh soal tidak mengetahui DGP, itu benar. Tapi bukan itu intinya. Setiap analisis harus membuat asumsi tentang DGP dan kualitas analisis tergantung pada kualitas asumsi. Derivasi yang saya berikan hanya berfungsi untuk menggambarkan contoh asumsi (meskipun, asumsi yang sangat kuat) yang dapat membawa Anda ke tempat yang ingin Anda tuju.
jmbejara
@ Heisenberg: 1) Bisakah Anda membuka pertanyaan baru tentang ini? Jika Anda hanya menyalin dan menempelkan derivasi dan menyajikan pertanyaan Anda, itu yang terbaik. 2) diperlukan ketika saya mengatakan bahwa C o v ( X 1 , Z ) = 0 . 3) Kamu benar. Jika kita tertarik untuk memprediksi Y , itu akan menjadi penting. Tapi, ya, itu poin yang bagus. Di sisi lain, itu mungkin berguna untuk dicatat bahwa ukuran bias tergantung pada bagaimana berkorelasi Anda percaya X 1 dan XCHaiv(X1,Z)=0CHaiv(X1,Z)=0YX1 menjadi. X2
jmbejara
1
@jmbejara saya memposting 1) sebagai pertanyaan terpisah . Silakan mengedit pertanyaan / judul saya, karena saya tidak tahu bagaimana cara mengucapkan judul secara cerdas dan berguna untuk Googler dalam kasus ini.
Heisenberg
6

Semua terlalu kuat, tetapi mungkin beberapa. Masalah ini disebut "noda". Lihatlah buktinya dalam catatan kuliah Greene di slide 5.

Emily Oster memiliki kertas kerja yang bagus (dan perintah Stata psacalc) yang dapat membantu mengikat bias.

Dimitriy V. Masterov
sumber
5

Dalam konteks estimasi Least-squares, cara kita harus (berupaya) menangani kemungkinan endogenitas regressor adalah melalui estimasi Variabel Instrumental. Pendekatan ini tidak tergantung pada hanya memiliki satu regresi endogen - Anda mungkin memiliki banyak. Dalam kasus seperti itu tentu saja Anda perlu menemukan lebih banyak instrumen yang membuat segalanya lebih sulit - tetapi pada prinsipnya, metode ini akan bekerja dengan cara yang sama.

Estimasi IV tidak menyelesaikan masalah bias, hanya menyediakan konsistensi untuk estimator. Tetapi tidak ada yang memecahkan masalah bias batang eksogenitas yang ketat itu sendiri (dan kemudian ada beberapa metode pengurangan bias). Tetapi jika Anda melihat-lihat situs SE lain, Cross Validated , yaitu tentang statistik, Anda akan melihat bahwa ahli statistik berpengalaman tidak benar-benar memberi banyak bobot pada properti yang tidak memihak - mereka fokus pada Mean-Square Efficiency untuk properti sampel terbatas, dan pada konsistensi untuk sifat sampel besar.

Alecos Papadopoulos
sumber
1
Jadi pendekatan yang benar adalah menemukan instrumen untuk semua variabel endogen, kan?
Heisenberg
1
Ya, ini jalannya.
Alecos Papadopoulos
5

Ini adalah contoh dari apa yang oleh ahli statistik Andrew Gelman disebut sebagai "kekeliruan mengendalikan hasil jangka menengah". Berikut ini uraiannya tentang kekeliruan yang muncul ketika para peneliti bertanya apakah memiliki lebih banyak anak perempuan mengubah politik Anda. Keputusan untuk memiliki anak kedua tentu tergantung pada keputusan sebelumnya untuk memiliki anak pertama, dan sepertinya contoh yang jelas untuk mengendalikan variabel keputusan yang bersifat endogen.

Beberapa penelitian telah dilakukan dalam beberapa tahun terakhir melihat keputusan ekonomi orang tua dari anak laki-laki, dibandingkan dengan orang tua dari anak perempuan .... Fitur umum dari semua studi ini adalah bahwa mereka mengendalikan jumlah total anak ... .Pada pandangan pertama, mengendalikan jumlah anak tampaknya masuk akal. Namun, ada kesulitan dalam hal jumlah total anak-anak adalah hasil jangka menengah, dan mengendalikannya (apakah dengan menetapkan data berdasarkan #kids atau menggunakan #kids sebagai variabel kontrol dalam model regresi) dapat membiaskan perkiraan dari efek sebab akibat memiliki anak laki-laki (atau anak perempuan).

Untuk melihat ini, anggaplah (secara hipotesis) bahwa orang tua yang secara politis konservatif lebih cenderung menginginkan anak laki-laki, dan jika mereka memiliki dua anak perempuan, mereka (secara hipotetis) lebih mungkin untuk mencoba anak ketiga. Sebagai perbandingan, kaum liberal lebih cenderung berhenti pada dua anak perempuan. Dalam hal ini, jika Anda melihat data keluarga dengan 2 anak perempuan, kaum konservatif akan kurang terwakili, dan data dapat menunjukkan korelasi anak perempuan dengan liberalisme politik — bahkan jika memiliki anak perempuan tidak memiliki efek sama sekali! ...

Solusinya adalah dengan menerapkan pendekatan standar konservatif (dalam arti statistik!) Ke inferensi kausal, yaitu dengan regresi pada variabel perawatan Anda (jenis kelamin anak) tetapi mengendalikan hanya untuk hal-hal yang terjadi sebelum anak itu lahir. Misalnya, seseorang dapat membandingkan orang tua yang anak pertamanya adalah anak perempuan dengan orang tua yang anak pertamanya adalah anak laki-laki. Seseorang juga dapat melihat kelahiran kedua, membandingkan orang tua yang anak keduanya adalah anak perempuan dengan mereka yang anak keduanya adalah anak laki-laki yang mengendalikan jenis kelamin anak pertama. Dan seterusnya untuk anak ketiga, dll.

Apakah memiliki putra membuat Anda lebih konservatif? Mungkin tidak. Masalah dengan mengontrol hasil jangka menengah

Mengenai komentar Anda bahwa "Biarkan variabel kontrol itu keluar dan mereka menyebabkan bias variabel yang dihilangkan sendiri.", Ini tampaknya tergantung pada jenis instrumen yang Anda dapatkan. Instrumen yang baik, yang benar-benar memenuhi persyaratan, harus independen dari istilah kesalahan pada tahap kedua dan independen dari segala sesuatu yang Anda kontrol secara langsung . Artinya, instrumen berubah Y hanya melalui X. Jadi instrumen yang cocok untuk ketidaksetaraan harus independen dari pertumbuhan dan perkembangan (semoga berhasil menemukan itu!) Jika kita percaya bahwa persamaan kekerasan adalah persamaan struktural untuk kekerasan.

BKay
sumber
1

Seperti yang telah ditunjukkan oleh pos-pos lain, regressor endogen dapat mencemari semua estimasi parameter dalam regresi ketika regressor berkorelasi.

X1X2X2X1

β^1X2X1X2

Pertimbangkan model berikut (analog dengan notasi @ jmbejara)

y=X1β1+X2β2+Zγ+ε,

Zε1nx1(k)εhal01nx2(k)εhal0kX21nx1(k)z(l)hal0(k,l)

X2X1X1ZX2

1nx1(k)QX2z(l)hal0
(k,l)QX2X2QX2[sayan-X2(X2X2)-1X2]β1

β^1=(X1QX2X1)-1X1QX2y=β1+(X1QX2X1)-1X1QX2X2hal0β2+(X1QX2X1)-1X1QX2Zhal0γ+(X1QX2X1)-1X1QX2εhal0
X1X2
Murphy
sumber