Untuk menjawab pertanyaan pertama Anda , Anda benar bahwa pemilihan sampel adalah bentuk endogenitas tertentu (Lihat Antonakis et al. 2010 untuk ulasan dasar yang baik tentang endogenitas dan solusi umum), namun Anda tidak benar dalam mengatakan bahwa kemungkinan diperlakukan adalah variabel endogen, karena merupakan variabel pengobatan itu sendiri ("penugasan pengobatan non-acak") - daripada kemungkinan dirawat - yang bersifat endogen dalam pemilihan sampel. Ingatlah bahwa endogenitas merujuk pada situasi di mana Anda salah mengidentifikasi hubungan sebab akibat antara faktor X dan faktor Y, ketika "hubungan" yang diamati sebenarnya disebabkan oleh faktor Z lainnya yang mempengaruhi X dan Y. Dengan kata lain, diberikan model regresi :
yi=β0+β1xi+...+ϵi
endogenitas terjadi ketika satu atau lebih dari satu prediktor Anda terkait dengan istilah kesalahan dalam model. Artinya, ketika .Cov(x,ϵ)≠0
Penyebab umum endogenitas meliputi:
- Variabel yang dihapus (beberapa hal yang tidak dapat kami ukur)
- Motivasi / pilihan
- Kemampuan / bakat
- Seleksi sendiri
- Kesalahan pengukuran
(kami ingin memasukkan , tetapi kami hanya mengamati x j ∗ )xjxj∗
- Simultanitas / dua arah (pada anak di bawah 5 tahun, hubungan antara indikator status gizi "berat untuk usia" dan apakah anak memiliki penyakit baru-baru ini mungkin bersamaan).
Berbagai jenis masalah memerlukan solusi yang sedikit berbeda, yang merupakan perbedaan antara koreksi tipe IV dan Heckman. Tentu saja ada perbedaan dalam mekanisme yang mendasari metode ini, tetapi premisnya sama: yaitu untuk menghilangkan endogenitas, idealnya melalui pembatasan eksklusi, yaitu satu atau lebih instrumen dalam kasus IV atau variabel yang mempengaruhi seleksi tetapi tidak hasil dalam kasus Heckman.
Untuk menjawab pertanyaan kedua Anda , Anda harus memikirkan perbedaan dalam jenis keterbatasan data yang memunculkan pengembangan solusi ini. Saya suka berpikir bahwa pendekatan variabel instrumental (IV) digunakan ketika satu atau lebih variabel endogen, dan tidak ada proksi yang baik untuk menempel pada model untuk menghapus endogenitas, tetapi kovariat dan hasil diamati untuk semua pengamatan. Koreksi tipe Heckman, di sisi lain, digunakan ketika Anda memiliki pemotongan, yaitu informasi tidak diamati bagi mereka dalam sampel di mana nilai variabel seleksi == 0.
Pendekatan variabel instrumental (IV)
Pikirkan contoh ekonometrik klasik untuk regresi IV dengan penaksir dua tahap kuadrat (2SLS): pengaruh pendidikan terhadap pendapatan.
(1)Earningsi=β0+β1OwnEdi+ϵi
Tingkat pencapaian pendidikan di sini bersifat endogen karena ditentukan sebagian oleh motivasi dan kemampuan individu, yang keduanya juga memengaruhi penghasilan seseorang. Motivasi dan Kemampuan biasanya tidak diukur dalam survei rumah tangga atau ekonomi. Oleh karena itu, Persamaan 1 dapat ditulis untuk secara eksplisit mencakup motivasi dan kemampuan:
(2)Earningsi=β0+{β1OwnEdi+β2Motivi+β3Abili}+ϵi
Karena dan A b i l tidak benar-benar diamati, Persamaan 2 dapat ditulis sebagai:MotivAbil
(3),Earningsi=β0+β1OwnEdi+ui
dimana (4).ui=β2Motivi+β3Abili+ϵi
Oleh karena itu estimasi naif dari pengaruh pendidikan terhadap pendapatan melalui OLS akan menjadi bias. Bagian ini sudah Anda ketahui.
Di masa lalu, orang-orang telah menggunakan pendidikan orang tua sebagai instrumen untuk tingkat pendidikan subjek sendiri, karena mereka sesuai dengan 3 persyaratan untuk instrumen yang valid ( ):z
- harus terkait dengan prediktor endogen - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑥 ) ≠ 0zCov(z,x)≠0 ,
- tidak dapat secara langsung terkait dengan hasil - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑦 ) = 0zCov(z,y)=0 , dan
- tidak dapat dikaitkan dengan karakteristik (u) yang tidak dapat diamati (yaitu, z adalah eksogen) - 𝐶 𝑜 𝑣 ( 𝑧 , 𝑢 ) =zzCov(z,u)=0
Ketika Anda memperkirakan pendidikan subjek ( ) menggunakan pendidikan orang tua ( M o m E d dan D a d E d ) pada tahap pertama dan menggunakan nilai pendidikan yang diprediksi ( ^ O w nOwnEdMomEdDadEd ) untuk memperkirakanEarningspada tahap kedua, Anda (dalam istilah yang sangat sederhana), memperkirakanEarningOwnEdˆEarnings berdasarkan porsiEarnings yang tidak ditentukan oleh motivasi / kemampuan.OwnEd
Koreksi tipe Heckman
Seperti yang telah kami tentukan sebelumnya, pemilihan sampel non-acak adalah tipe endogenitas tertentu. Dalam hal ini, variabel yang dihilangkan adalah bagaimana orang dipilih ke dalam sampel. Biasanya, ketika Anda memiliki masalah pemilihan sampel, hasil Anda diamati hanya untuk mereka yang pemilihan sampelnya variable == 1
. Masalah ini juga dikenal sebagai "pemotongan insidental," dan solusinya umumnya dikenal sebagai koreksi Heckman. Contoh klasik dalam ekonometrik adalah tawaran upah wanita yang sudah menikah:
(5 )Wagei=β0+β1Educi+β2Experiencei+β3Experience2i+ϵi
Masalahnya di sini adalah hanya diamati untuk wanita yang bekerja untuk upah, sehingga penaksir naif akan menjadi bias, karena kita tidak tahu apa penawaran upah bagi mereka yang tidak berpartisipasi dalam angkatan kerja, pemilihan variabel s . Persamaan 5 dapat ditulis ulang untuk menunjukkan bahwa itu ditentukan bersama oleh dua model laten:Wages
(6)Wage∗i=Xβ′+ϵi
(7)LaborForce∗i=Zγ′+νi
Yaitu, IFF L a b o r F o r c e ∗ i > 0 dan W a g e = . IFF L a b o r F o r c e ∗ i ≤ 0Wage=Wage∗iLaborForce∗i>0Wage=.LaborForce∗i≤0
Oleh karena itu solusi di sini adalah untuk memprediksi kemungkinan partisipasi dalam angkatan kerja pada tahap pertama menggunakan model probit dan pembatasan pengecualian (kriteria yang sama untuk instrumen valid berlaku di sini), menghitung diprediksi terbalik Mills ratio ( λ ) untuk setiap pengamatan , dan di tahap kedua, memperkirakan tawaran upah menggunakan λ sebagai prediktor dalam model (Wooldridge 2009). Jika koefisien λ secara statistik sama dengan nol, tidak ada bukti dari pemilihan sampel (endogeneity), dan OLS hasil yang konsisten dan dapat disajikan. Jika koefisien pada λλ^λ^λ^λ^ secara statistik berbeda nyata dari nol, Anda harus melaporkan koefisien dari model yang dikoreksi.
Referensi
- Antonakis, John, Samuel Bendahan, Philippe Jacquart, dan Rafael Lalive. 2010. “Tentang Pengajuan Klaim Kausal: Tinjauan dan Rekomendasi.” The Leadership Quarterly 21 (6): 1086–1120. doi: 10.1016 / j.leaqua.2010.10.010.
- Wooldridge, Jeffrey M. 2009. Pengantar Ekonometrika: Pendekatan Modern. 4th ed. Mason, OH, AS: Barat Daya, Cengage Learning.
Seseorang harus membuat perbedaan antara model pemilihan sampel Heckman tertentu (di mana hanya satu sampel yang diamati) dan koreksi tipe-Heckman untuk seleksi sendiri, yang juga dapat bekerja untuk kasus di mana dua sampel diamati. Yang terakhir disebut sebagai pendekatan fungsi kontrol , dan jumlah untuk dimasukkan ke dalam tahap kedua Anda istilah mengendalikan endogenitas.
Mari kita punya kasus standar dengan variabel dummy endogen D, instrumen Z:
Kedua pendekatan menjalankan tahap pertama (D pada Z). IV menggunakan OLS standar (bahkan jika D adalah boneka) Heckman menggunakan probit. Tapi selain itu, perbedaan utama adalah pada cara mereka menggunakan tahap pertama ini ke dalam persamaan utama:
Keuntungan dari prosedur Heckman adalah memberikan tes langsung untuk endogenitas: koefisienβ2 . Di sisi lain, prosedur Heckman bergantung pada asumsi normalitas gabungan kesalahan, sementara IV tidak membuat asumsi seperti itu.
Jadi Anda memiliki cerita standar bahwa dengan kesalahan normal, fungsi kontrol akan lebih efisien (terutama jika yang menggunakan MLE daripada dua langkah yang ditunjukkan di sini) daripada IV, tetapi jika asumsi tidak berlaku, IV akan menjadi lebih baik. Karena para peneliti menjadi lebih curiga tentang asumsi normalitas, IV digunakan lebih sering.
sumber
Dari Heckman, Urzua and Vytlacil (2006):
Contoh bias seleksi : Pertimbangkan dampak kebijakan terhadap hasil suatu negara (misalnya PDB). Jika negara-negara yang akan melakukan dengan baik dalam hal yang tidak dapat diamati bahkan tanpa adanya kebijakan adalah negara-negara yang mengadopsi kebijakan tersebut, maka estimasi OLS menjadi bias.
Dua pendekatan utama telah diadopsi untuk memecahkan masalah ini: (a) model seleksi dan (b) model variabel instrumental.
Pendekatan seleksi memodelkan tingkat sarana bersyarat. Pendekatan IV memodelkan lereng sarana bersyarat. IV tidak mengidentifikasi konstanta yang diperkirakan dalam model seleksi.
The IV approach does not condition on D (the treatment). The selection (control function) estimator identifies the conditional means using control functions.
When using control functions with curvature assumptions, one does not require an exclusion restriction (does not requireZ≠X ) in the selection model. By assuming a functional form for the distribution of the error terms, one rules out the possibility that the conditional mean of the outcome equation equals the conditional control function, and thus you can correct for selection without exclusion restrictions. See also Heckman and Navarro (2004).
sumber