Saya telah membaca bahwa estimator 2SLS masih konsisten bahkan dengan variabel endogen biner ( http://www.stata.com/statalist/archive/2004-07/msg00699.html ). Pada tahap pertama, model perawatan probit akan dijalankan alih-alih model linier.
Apakah ada bukti formal untuk menunjukkan bahwa 2SLS masih konsisten bahkan ketika tahap 1 adalah model probit atau logit?
Juga bagaimana jika hasilnya juga biner? Saya mengerti jika kita memiliki hasil biner dan variabel endogen biner (tahap 1 dan 2 sama-sama model biner probit / logit), meniru metode 2SLS akan menghasilkan perkiraan yang tidak konsisten. Apakah ada bukti formal untuk ini? Buku ekonometrik Wooldridge memiliki beberapa diskusi tetapi saya pikir tidak ada bukti kuat untuk menunjukkan ketidakkonsistenan.
data sim;
do i=1 to 500000;
iv=rand("normal",0,1);
x2=rand("normal",0,1);
x3=rand("normal",0,1);
lp=0.5+0.8*iv+0.5*x2-0.2*x3;
T=rand("bernoulli",exp(lp)/(1+exp(lp)));
Y=-0.8+1.2*T-1.3*x2-0.8*x3+rand("normal",0,1);
output;
end;
run;
****1st stage: logit model ****;
****get predicted values ****;
proc logistic data=sim descending;
model T=IV;
output out=pred1 pred=p;
run;
****2nd stage: ols model with predicted values****;
proc reg data=pred1;
model y=p;
run;
koefisien dari p = 1.19984
. Saya hanya menjalankan satu simulasi tetapi dengan ukuran sampel yang besar.
Jawaban:
Ada pertanyaan serupa tentang tahap pertama probit dan tahap kedua OLS. Dalam jawaban saya telah memberikan tautan ke catatan yang berisi bukti formal dari ketidakkonsistenan regresi ini yang secara resmi dikenal sebagai "regresi terlarang", seperti yang disebut oleh Jerry Hausman. Alasan utama ketidakkonsistenan pendekatan tahap pertama OLI / OLS tahap kedua adalah bahwa baik operator ekspektasi maupun operator proyeksi linear melewati tahap pertama non-linear. Oleh karena itu nilai-nilai yang dipasang dari probit tahap pertama hanya tidak berkorelasi dengan istilah kesalahan tahap kedua di bawah asumsi yang sangat ketat yang hampir tidak pernah berlaku dalam praktiknya. Perlu diketahui bahwa bukti formal dari inkonsistensi dari regresi terlarang cukup rumit, jika saya ingat dengan benar.
Jika Anda memiliki model mana adalah hasil yang berkelanjutan dan adalah variabel endogen biner, Anda dapat menjalankan tahap pertama melalui OLS dan gunakan nilai yang dipasang daripada di tahap kedua. Ini adalah model probabilitas linier yang Anda maksud. Mengingat bahwa tidak ada masalah untuk ekspektasi atau proyeksi linier untuk tahap linier pertama ini, perkiraan 2SLS Anda akan konsisten walaupun kurang efisien daripada yang seharusnya jika kami mempertimbangkan sifat non-linear .
Konsistensi dari pendekatan ini berasal dari fakta bahwa sementara model non-linear mungkin cocok dengan fungsi harapan bersyarat lebih erat untuk variabel dependen terbatas ini tidak masalah banyak jika Anda tertarik pada efek marginal. Dalam model probabilitas linier, koefisien itu sendiri adalah efek marginal yang dievaluasi pada rata-rata, jadi jika efek marginal pada rata-rata adalah apa yang Anda kejar (dan biasanya orang), maka inilah yang Anda inginkan mengingat model linier memberikan linear terbaik perkiraan fungsi harapan bersyarat non-linear.Yi
Hal yang sama berlaku jika adalah biner juga.
Untuk diskusi yang lebih rinci tentang hal ini, lihatlah catatan kuliah luar biasa Kit Baum tentang topik ini. Dari slide 7 ia membahas penggunaan model probabilitas linier dalam konteks 2SLS.
Akhirnya, jika Anda benar-benar ingin menggunakan probit karena Anda ingin perkiraan yang lebih efisien maka ada cara lain yang juga disebutkan dalam Wooldridge (2010) "Analisis Ekonometrik dari Penampang dan Data Panel". Jawaban tertaut di atas menyertakannya, saya ulangi di sini untuk kelengkapan. Sebagai contoh terapan, lihat Adams et al. (2009) yang menggunakan prosedur tiga langkah yang berjalan sebagai berikut:
Prosedur ini tidak cocok untuk masalah regresi terlarang tetapi berpotensi memberikan estimasi parameter bunga yang lebih efisien.
sumber