Pengaturan Data untuk Perbedaan-dalam-Perbedaan

Pengaturan mana yang benar untuk perbedaan dalam menggunakan model regresi perbedaan

$Y_{ist} = \alpha +\gamma_s*T + \lambda d_t + \delta*(T*d_t)+ \epsilon_{ist}$

di mana T adalah dummy yang sama dengan 1 jika pengamatan berasal dari kelompok perlakuan dan d adalah dummy yang sama dengan 1 pada periode waktu setelah perawatan terjadi

1) Sampel acak dari setiap kelompok dan waktu (yaitu 4 sampel acak)

atau

2) Data panel di mana unit yang sama dilacak selama kedua periode waktu tersebut?

Apakah itu penting dan jika tidak, bisakah OLS digunakan untuk kedua kasus tersebut?

regression econometrics difference-in-difference B_Miner
sumber

Saya belum melihat (1) selesai - analisis selalu tampak = (2). Tidak yakin mengapa Anda melakukannya (1). Tapi saya belum melihat banyak studi DID.

charles

Contoh 1 diperlihatkan dalam Wooldridge Introductory Econometrics bagian 13.2

B_Miner

Asumsi utama perbedaan-dalam-perbedaan (DID) adalah bahwa kedua kelompok memiliki kecenderungan yang sama dalam variabel hasil sebelum pengobatan. Ini penting untuk membuat argumen bahwa perubahan untuk kelompok yang dirawat adalah karena perlakuan dan bukan karena kedua kelompok sudah berbeda satu sama lain untuk memulai.

Jika Anda sampel orang yang berbeda sebelum dan setelah perawatan, ini akan melemahkan argumen kecuali sampel Anda dari kelompok perlakuan dan kontrol sebenarnya acak dan besar. Jadi mungkin saja terjadi bahwa seseorang akan bertanya kepada Anda: "Bagaimana Anda dapat memastikan bahwa efeknya adalah karena perawatan dan bukan hanya karena Anda mengambil sampel orang yang berbeda?" - dan itu akan sulit dijawab. Pertanyaan ini dapat Anda hindari dengan menggunakan data panel karena Anda melacak unit statistik yang sama dari waktu ke waktu dan umumnya ini adalah pendekatan yang lebih solid.

Untuk menjawab pertanyaan terakhir Anda: ya, data penting tetapi Anda pasti dapat menggunakan OLS untuk memperkirakan persamaan Anda di atas. Suatu hal penting yang di masa lalu sering diabaikan adalah estimasi yang benar dari kesalahan standar. Jika Anda tidak memperbaikinya, korelasi serial akan meremehkannya dengan jumlah yang baik dan Anda akan menemukan efek signifikan meskipun Anda mungkin tidak seharusnya. Sebagai referensi dan saran untuk bagaimana menangani masalah ini lihat Bertrand et al. (2004) "Berapa Banyak Kita Harus Percayai Estimasi Perbedaan-Dalam-Perbedaan?" .

Sebagai hal terakhir, jika Anda memiliki data agregat (misalnya di tingkat negara bagian) atau jika Anda dapat dengan mudah mengumpulkan data Anda dan jika Anda ingin menggunakan metode ekonometrik yang lebih baru daripada DID, Anda mungkin ingin melihat Abadie et al. (2010) "Metode Kontrol Sintetis untuk Studi Kasus Komparatif" . Metode kontrol sintetis semakin banyak digunakan dalam penelitian saat ini dan ada rutinitas yang terdokumentasi dengan baik untuk R dan Stata. Mungkin ini juga sesuatu yang menarik untuk Anda.

Andy
sumber

Ini hebat, Andy! Dapatkah saya meringkas dengan mengatakan bahwa kedua pengaturan data dapat diterima tetapi bahwa data panel lebih mudah untuk membuat argumen tentang asumsi? Keduanya sama-sama cocok dengan OLS tetapi kesalahan standar (terutama pengaturan data panel saya kira) dipertanyakan karena kemungkinan korelasi serial. Apakah pengaturan panel dengan Newey West SE akan menjadi solusi yang baik?

B_Miner

Ya, untuk tipe data pertama Anda memerlukan asumsi yang lebih banyak dan kuat. Untuk kesalahan standar, koreksi Newey West harus bekerja. Sebenarnya itu analog dengan salah satu metode koreksi yang diusulkan oleh Bertrand et al. (Mereka menggunakan kesalahan standar berkerumun). Metode yang lebih baru menggunakan bootstrap yang bekerja cukup baik (lihat rbnz.govt.nz/research_and_publications/seminars_and_workshops/… ). Semoga ini membantu!

Andy

Pengaturan Data untuk Perbedaan-dalam-Perbedaan

Jawaban: