Apakah Just-Identified 2SLS Median-Unlimited?

13

Dalam Mostly Harmless Econometrics: Seorang Pendamping Empiris (Angrist dan Pischke, 2009: halaman 209) Saya membaca yang berikut ini:

(...) Faktanya, 2SLS yang baru diidentifikasi (katakanlah, estimator Wald sederhana) kira-kira tidak bias . Ini sulit untuk ditunjukkan secara formal karena 2SLS yang diidentifikasi hanya tidak memiliki momen (yaitu, distribusi sampel memiliki ekor berlemak). Namun demikian, bahkan dengan instrumen yang lemah, 2SLS yang baru diidentifikasi kira-kira berpusat di mana seharusnya. Karena itu, kami mengatakan bahwa 2SLS yang diidentifikasi hanya memiliki median yang tidak bias. (...)

Meskipun penulis mengatakan bahwa 2SLS yang baru saja diidentifikasi adalah rata-rata, mereka tidak membuktikan atau memberikan referensi ke bukti . Di halaman 213 mereka menyebutkan proposisi lagi, tetapi tanpa referensi bukti. Juga, saya tidak dapat menemukan motivasi untuk proposisi dalam catatan kuliah mereka tentang variabel instrumental dari MIT , halaman 22.

Alasannya mungkin proposisi itu salah karena mereka menolaknya dalam catatan di blog mereka . Namun, 2SLS yang baru saja diidentifikasi kira - kira rata-rata, mereka menulis. Mereka memotivasi ini menggunakan eksperimen kecil Monte-Carlo, tetapi tidak memberikan bukti analitik atau ekspresi bentuk-tertutup dari istilah kesalahan yang terkait dengan perkiraan. Bagaimanapun, ini adalah jawaban penulis untuk profesor Gary Solon dari Michigan State University yang membuat komentar bahwa 2SLS yang diidentifikasi hanya tidak median-tidak bias.

Pertanyaan 1: Bagaimana Anda membuktikan bahwa 2SLS yang baru diidentifikasi tidak rata-rata seperti yang dikemukakan Gary Solon?

Pertanyaan 2: Bagaimana Anda membuktikan bahwa 2SLS yang baru diidentifikasi kira - kira rata-rata seperti yang Angrist dan Pischke berpendapat?

Untuk Pertanyaan 1, saya mencari contoh tandingan. Untuk Pertanyaan 2 saya (terutama) mencari bukti atau referensi ke bukti.

Saya juga mencari definisi formal tentang median-bias dalam konteks ini. Saya memahami konsepnya sebagai berikut: Estimator dari berdasarkan beberapa set dari variabel acak adalah median-bias untuk jika dan hanya jika distribusi memiliki median .θX1:nnθ θ (X1:n)θθ^(X1:n)θX1:nnθθ^(X1:n)θ


Catatan

  1. Dalam model yang baru saja diidentifikasi, jumlah regresi endogen sama dengan jumlah instrumen.

  2. Kerangka yang menggambarkan model variabel instrumen yang diidentifikasi hanya dapat dinyatakan sebagai berikut: Model sebab-akibat yang menarik dan persamaan tahap pertama adalah mana adalah matriks yang menggambarkan regresi endogen, dan di mana variabel instrumental dijelaskan oleh matriks . Di sini hanya menjelaskan beberapa jumlah variabel kontrol (misalnya, ditambahkan untuk meningkatkan presisi); dan dan adalah istilah kesalahan. Xk×n+1kk×n+1ZWuv

    (1){Y=Xβ+Wγ+uX=Zδ+Wζ+v
    Xk×n+1kk×n+1ZWuv
  3. Kami memperkirakan dalam menggunakan 2SLS: Pertama, mundur pada mengendalikan dan memperoleh nilai prediksi ; ini disebut tahap pertama. Kedua, mundur on mengendalikan untuk ; ini disebut tahap kedua. Koefisien estimasi pada pada tahap kedua adalah estimasi 2SLS kami untuk .( 1 ) X Z W X Y X W X ββ(1)XZWX^YX^WX^β

  4. Dalam kasus yang paling sederhana kita memiliki model dan instrumen regresi endogen dengan . Dalam hal ini, estimasi 2SLS untuk adalah mana menunjukkan kovarians sampel antara dan . Kami dapat menyederhanakan : mana , danx i z i β β 2SLS = s Z Y

    yi=α+βxi+ui
    xiziβsABAB(2) β 2SLS=Σi(yi- ˉ y )zi
    (2)β^2SLS=sZYsZX,
    sABAB(2) ˉy=iyi/nˉx=ixi
    (3)β^2SLS=i(yiy¯)zii(xix¯)zi=β+i(uiu¯)zii(xix¯)zi
    y¯=iyi/nˉ u = i u i / n nx¯=ixi/nu¯=iui/n, di mana adalah jumlah pengamatan.n
  5. Saya melakukan pencarian literatur menggunakan kata-kata "hanya-diidentifikasi" dan "median-tidak memihak" untuk menemukan referensi menjawab Pertanyaan 1 dan 2 (lihat di atas). Saya tidak menemukannya. Semua artikel yang saya temukan (lihat di bawah) membuat referensi ke Angrist dan Pischke (2009: halaman 209, 213) ketika menyatakan bahwa 2SLS yang baru saja diidentifikasi adalah median-tidak bias.

    • Jakiela, P., Miguel, E., & Te Velde, VL (2015). Anda telah mendapatkannya: memperkirakan dampak modal manusia pada preferensi sosial. Ekonomi Eksperimental , 18 (3), 385-407.
    • An, W. (2015). Perkiraan variabel instrumental dari efek rekan di jejaring sosial. Penelitian Ilmu Sosial , 50, 382-394.
    • Vermeulen, W., & Van Ommeren, J. (2009). Apakah perencanaan penggunaan lahan membentuk ekonomi regional? Analisis simultan pasokan perumahan, migrasi internal, dan pertumbuhan lapangan kerja lokal di Belanda. Jurnal Ekonomi Perumahan , 18 (4), 294-310.
    • Aidt, TS, & Leon, G. (2016). Jendela peluang demokratis: Bukti dari kerusuhan di Afrika Sub-Sahara. Jurnal Resolusi Konflik , 60 (4), 694-717.
Elias
sumber
2
Saya tidak bisa menjawab ini dengan bukti formal melainkan dengan beberapa studi simulasi yang menunjukkan bahwa LIML rata-rata tidak bias (plus definisi) dan bahwa LIML dan 2SLS dengan satu variabel endogen dan satu instrumen memiliki distribusi sampel kecil yang sama (maka jika LIML dalam hal ini case adalah median-bias maka 2SLS). Apakah ini cukup untuk menjawab pertanyaan Anda?
Andy
@Andy Itu jawaban yang sangat bagus! Mungkin cukup, tergantung pada apa yang dikatakan pengguna lain. Mungkin itu sudah cukup karena saya pikir tidak ada bukti proposisi bahwa 2SLS yang baru saja diidentifikasi kira-kira rata-rata. Akan lebih baik dengan contoh tandingan yang menunjukkan bahwa 2SLS yang baru saja diidentifikasi tidak median-tidak memihak; tapi saya pikir itu mungkin (tapi mungkin sulit) untuk datang dengan contoh sendiri.
Elias
Dengan kira-kira tidak bias, maksud Anda bias menjadi nol karena beberapa fungsi dari jumlah pengamatan, seperti 1 / n atau 1 / n ^ 2, dll?
Igor
@ Igor Frasa "kira-kira rata-rata tidak bias" tidak digunakan oleh saya. Karena saya tidak tahu apa artinya "median-bias" secara formal, saya tidak dapat menjawab pertanyaan Anda. Tapi apa yang Anda pikirkan adalah penduga yang tidak memihak secara asimptot .
Elias

Jawaban:

6

Dalam studi simulasi, istilah median bias merujuk pada nilai absolut dari penyimpangan estimator dari nilai sebenarnya (yang Anda tahu dalam kasus ini karena ini adalah simulasi sehingga Anda memilih nilai sebenarnya). Anda dapat melihat kertas kerja oleh Young (2017) yang mendefinisikan bias median seperti ini pada tabel 15, atau Andrews dan Armstrong (2016) yang memplot grafik bias median untuk penduga yang berbeda pada gambar 2.

Bagian dari kebingungan (juga dalam literatur) tampaknya berasal dari kenyataan bahwa ada dua masalah mendasar yang terpisah:

  1. instrumen yang lemah
  2. banyak (berpotensi) instrumen yang lemah

Masalah memiliki instrumen yang lemah dalam pengaturan yang diidentifikasi hanya sangat berbeda dari memiliki banyak instrumen di mana beberapa instrumen lemah, namun, kadang-kadang kedua masalah itu dilempar bersama.

Pertama-tama, mari kita pertimbangkan hubungan antara estimator yang kita bicarakan di sini. Theil (1953) dalam "Estimasi dan Korelasi Bersamaan dalam Sistem Persamaan Lengkap" memperkenalkan apa yang dinamakan -klass estimator: κ

β^=[X(IκMZ)X]1[X(IκMZ)y)]

dengan , untuk sistem persamaan MZ=IZ(ZZ)1Z

y=Xβ+uX=Zπ+e.

Skalar menentukan estimator apa yang kita miliki. Untuk Anda kembali ke OLS, untuk Anda memiliki penaksir 2SLS, dan ketika disetel ke akar terkecil dari Anda memiliki penaksir LIML (lihat Stock dan Yogo, 2005 , hal. 111)κ = 0 κ = 1 κ det ( X X - κ X M Z X ) ) = 0κκ=0κ=1κdet(XXκXMZX))=0

Secara asimptotik, LIML dan 2SLS memiliki distribusi yang sama, namun, dalam sampel kecil ini bisa sangat berbeda. Ini khususnya terjadi ketika kita memiliki banyak instrumen dan jika beberapa dari mereka lemah. Dalam hal ini, LIML berkinerja lebih baik dari 2SLS. LIML di sini telah terbukti median tidak bias. Hasil ini keluar dari banyak studi simulasi. Biasanya makalah yang menyatakan hasil ini mengacu pada Rothberg (1983) "Properti Asimptotik dari Beberapa Pengukur Dalam Model Struktural", Sawa (1972) , atau Anderson et al. (1982) .

Steve Pischke menyediakan simulasi untuk hasil ini pada tahun 2016-nya catatan pada slide 17, menunjukkan distribusi OLS, LIML dan 2SLS dengan 20 instrumen dari yang hanya satu benar-benar berguna. Nilai koefisien sebenarnya adalah 1. Anda melihat bahwa LIML dipusatkan pada nilai sebenarnya sementara 2SLS bias terhadap OLS. masukkan deskripsi gambar di sini

Sekarang argumennya tampaknya sebagai berikut: mengingat bahwa LIML dapat ditunjukkan sebagai median tidak memihak dan bahwa dalam kasus yang baru saja diidentifikasi (satu variabel endogen, satu instrumen) LIML dan 2SLS adalah setara, 2SLS juga harus rata-rata median.

Namun, tampaknya orang kembali mencampur kasus "instrumen lemah" dan "banyak instrumen lemah" karena dalam pengaturan yang baru diidentifikasi baik LIML dan 2SLS akan menjadi bias ketika instrumen lemah. Saya belum melihat hasil di mana itu menunjukkan bahwa LIML tidak memihak dalam kasus yang baru diidentifikasi ketika instrumen lemah dan saya tidak berpikir bahwa ini benar. Kesimpulan serupa keluar dari tanggapan Angrist dan Pischke (2009) terhadap Gary Solo di halaman 2 di mana mereka mensimulasikan bias OLS, 2SLS, dan LIML ketika mengubah kekuatan instrumen. masukkan deskripsi gambar di sini

Untuk koefisien tahap pertama yang sangat kecil <0,1 (menahan kesalahan standar tetap), yaitu kekuatan instrumen rendah, 2SLS yang baru diidentifikasi (dan karenanya LIML yang diidentifikasi) jauh lebih dekat dengan batas probabilitas estimator OLS dibandingkan dengan nilai koefisien benar 1.

Setelah koefisien tahap pertama adalah antara 0,1 dan 0,2, mereka mencatat bahwa statistik tahap pertama F di atas 10 dan karenanya tidak ada masalah instrumen yang lemah lagi menurut aturan praktis F> 10 oleh Stock dan Yogo (2005). Dalam hal ini, saya gagal melihat bagaimana LIML seharusnya memperbaiki masalah instrumen yang lemah dalam kasus yang baru saja diidentifikasi. Perhatikan juga bahwa i) LIML cenderung lebih tersebar dan memerlukan koreksi kesalahan standarnya (lihat Bekker, 1994) dan ii) jika instrumen Anda benar-benar lemah, Anda tidak akan menemukan apa pun pada tahap kedua baik dengan 2SLS maupun LIML karena kesalahan standar hanya akan menjadi terlalu besar.

Andy
sumber
Terima kasih atas jawabannya! Ini membuat segalanya lebih jelas bagi saya.
Elias