Apakah prosedur efek tetap Mundlak berlaku untuk regresi logistik dengan boneka?

12

Saya memiliki dataset dengan 8000 cluster dan 4 juta pengamatan. Sayangnya perangkat lunak statistik saya, Stata, berjalan agak lambat ketika menggunakan fungsi data panel untuk regresi logistik:, xtlogitbahkan dengan subsampel 10%.

Namun, ketika menggunakan logitfungsi fungsi nonpanel muncul lebih cepat. Karena itu saya mungkin bisa mendapat manfaat dari menggunakan logitdata yang dimodifikasi yang memperhitungkan efek tetap.

Saya percaya prosedur ini menghasilkan "prosedur efek tetap Mundlak" (Mundlak, Y. 1978. Kumpulan Data Time-Series dan Cross-section. Econometrica, 46 (1), 69-85.)

Saya menemukan penjelasan intuitif dari prosedur ini dalam sebuah makalah oleh Antonakis, J., Bendahan, S., Jacquart, P., & Lalive, R. (2010). Tentang membuat klaim sebab-akibat: Tinjauan dan rekomendasi. Kuartal Kepemimpinan, 21 (6). 1086-1120. Saya mengutip:

Salah satu cara untuk mengatasi masalah efek tetap yang dihilangkan dan untuk tetap memasukkan variabel Level 2 adalah dengan memasukkan rata-rata cluster dari semua kovariat Level 1 dalam model estimasi (Mundlak, 1978). Berarti cluster dapat dimasukkan sebagai regressor atau dikurangkan (yaitu, center-mean centering) dari kovariat Level 1. Rata-rata klaster adalah tidak tetap dalam klaster (dan bervariasi di antara kluster) dan memungkinkan untuk estimasi yang konsisten dari parameter Level 1 sama seperti jika efek tetap telah dimasukkan (lihat Rabe-Hesketh & Skrondal, 2008).

Oleh karena itu pemusatan rata-rata kluster tampak ideal dan praktis untuk menyelesaikan masalah komputasi saya. Namun, makalah ini tampaknya diarahkan untuk regresi linier (OLS).

Apakah metode pemusatan rata-rata klaster ini juga berlaku untuk "replikasi" efek tetap regresi logistik biner?

Pertanyaan yang lebih teknis yang harus menghasilkan jawaban yang sama adalah: apakah xtlogit depvar indepvars, fedengan dataset A sama logit depvar indepvarsdengan dataset B ketika dataset B adalah versi cluster-mean centered dari dataset A?

Kesulitan tambahan yang saya temukan dalam pemusatan rata-rata gugus ini adalah bagaimana cara mengatasi boneka. Karena boneka adalah 0 atau 1, apakah identik dalam regresi efek acak dan tetap? Haruskah mereka tidak "terpusat"?

Tom
sumber

Jawaban:

9

Perbedaan pertama atau dalam transformasi seperti demeaning tidak tersedia dalam model seperti logit karena dalam kasus model nonlinear trik seperti itu tidak menghilangkan efek tetap yang tidak teramati. Bahkan jika Anda memiliki kumpulan data yang lebih kecil yang memungkinkan untuk memasukkan N-1 dummies individual untuk memperkirakan efek tetap secara langsung, ini akan mengarah pada estimasi yang bias kecuali dimensi waktu dari data Anda besar. Penghapusan efek tetap dalam logit panel karena itu mengikuti tidak ada perbedaan atau merendahkan dan hanya mungkin karena bentuk fungsional logit. Jika Anda tertarik dengan perinciannya, Anda bisa melihat catatan ini oleh Söderbom di halaman PDF 30 (penjelasan mengapa merendahkan / perbedaan pertama dalam logit / probit tidak membantu) dan halaman 42 (pengenalan estimator logit panel).

Masalah lain adalah bahwa xtlogitdan model logit panel pada umumnya tidak memperkirakan efek tetap secara langsung yang diperlukan untuk menghitung efek marginal. Tanpa itu akan sangat canggung untuk menafsirkan koefisien Anda yang mungkin mengecewakan setelah menjalankan model selama berjam-jam.

Dengan set data yang besar dan kesulitan konsep yang disebutkan sebelumnya dari panel FE logit saya akan tetap dengan model probabilitas linier. Saya harap jawaban ini tidak mengecewakan Anda tetapi ada banyak alasan bagus untuk memberikan saran seperti itu: LPM jauh lebih cepat, koefisien dapat ditafsirkan langsung (ini berlaku khususnya jika Anda memiliki efek interaksi dalam model Anda karena interpretasi dari mereka koefisien dalam perubahan model non-linear!), efek tetap mudah dikontrol dan Anda dapat menyesuaikan kesalahan standar untuk autokorelasi dan kluster tanpa waktu estimasi yang meningkat melebihi alasan. Saya harap ini membantu.

Andy
sumber
1
Itu bukan solusi tetapi itu adalah jawaban. Terima kasih :)
Tom
1
Poin kecil: p20 dari slide-slide itu mendukung Anda, tetapi model Mundlak-koreksi alias 'efek acak berkorelasi' dijelaskan pada p47 dan tampaknya tidak membawa peringatan seperti itu.
conjugateprior
1

Saya percaya condit logit ("clogit" pada Stata), ini merupakan estimator panel log-efek tetap alternatif.

http://www3.nd.edu/~rwilliam/stats3/Panel03-FixedEffects.pdf

Francesco
sumber
5
Selamat datang di situs ini! Saya pikir ini bukan jawaban yang dapat diterima, karena pertanyaannya sebenarnya adalah: bagaimana cara menghindari regresi logistik bersyarat (efek tetap) dengan memodifikasi regresi logistik cross-sectional, dengan tujuan mempercepat estimasi. Sebagai referensi Anda menunjukkan (di bagian atas halaman 3), "kita dapat menggunakan salah satu Stata's clogitperintah atau xtlogit, feperintah untuk melakukan efek tetap analisis logit. Keduanya memberikan hasil yang sama. (Bahkan, saya percaya xtlogit, febenar-benar memanggil clogit.)" The OP sudah tahu xtlogit, feberdasarkan paragraf kedua dari belakang.
Randel
0

Allison telah membahas masalah ini di Allison, (2009), "Model regresi efek tetap", hal.32f.

Allison berpendapat bahwa tidak mungkin untuk memperkirakan model tanpa syarat dengan kemungkinan maksimum. Ini saya jadi karena model menjadi bias karena "masalah parameter insidental". Sebaliknya, ia merekomendasikan menggunakan model logit bersyarat (Chamberlain, 1980). Ini dicapai dengan mengkondisikan fungsi kemungkinan pada jumlah peristiwa yang diamati untuk setiap individu.

Monster kue
sumber