Definisi validitas variabel instrumental

8

Apa yang dimaksud dengan "validitas instrumen"?

Dalam kursus ekonometrik saya, kami baru saja menetapkan validitas instrumen sebagaiE[Z|u]=0dimana Z adalah variabel instrumental dan uadalah istilah kesalahan dari model regresi univariat. Kemudian, kami juga berbicara tentang kekuatan suatu instrumen, tetapi saya cukup yakin saya telah memahami dengan benar bahwa itu adalah persyaratan yang berbeda dari validitas.

Dalam aplikasi, saya sering menemukan definisi validitas sebagai corr(Z,X)0dimana Z adalah instrumen dan X adalah variabel penjelas endogen, ditambah persyaratan itu E[Z|u]=0 (seperti di atas), yang biasanya didefinisikan sebagai pembatasan pengecualian.

Saya agak bingung dan tidak mudah menemukan jenis primer pada pendekatan IV yang saya butuhkan. Adakah yang bisa mengungkap masalah ini?

PhDing
sumber
Pertanyaan ini mungkin lebih cocok untuk situs web Ekonomi untuk Stack Exchange.
Mike Hunter
4
@ Johnson, saya pikir ini bisa baik. Memahami variabel instrumental adalah topik statistik. Ketika sebuah pertanyaan bisa mengenai topik di lebih dari satu situs, saya biasanya tunduk pada pilihan OP.
gung - Reinstate Monica
@ Johnson Saya pikir itu sesuai untuk CV: estimasi IV tentu tidak terbatas pada ekonomi / ekonometrik dalam aplikasi (meskipun teknik ini berasal dari disiplin ekonometrik). Makalah dan buku teks epidemiologi, seperti yang saya kutip dalam jawaban saya (dan saya bisa memikirkan orang lain di luar kepala saya), membahas estimasi IV dan metode identifikasi variabel IV.
Alexis

Jawaban:

6

Persyaratan untuk Z untuk menjadi instrumen yang valid untuk X adalah:

  • Relevansi = Z harus sangat berkorelasi dengan X
  • Eksogen = Z berkorelasi dengan Y semata-mata melalui korelasinya dengan X; jadi Z tidak berkorelasi dengan kesalahan dalam persamaan hasil

Gagasan utama di balik IV adalah bahwa ketika Z berubah, ia juga harus mengubah X, tetapi bukan bagian bermasalah dari X yang berkorelasi dengan kesalahan. Untuk mendapatkan efek X pada Y, kita hanya menggunakan bagian dari variasi dalam X, bagian yang didorong oleh variasi dalam Z.

Dimitriy V. Masterov
sumber
Ini adalah penjelasan istilah awam yang baik tentang apa yang estimasi IV lakukan: "tetapi bukan bagian bermasalah dari X yang berkorelasi dengan kesalahan." Ada video lucu (OK, tidak terlalu kecil, berdurasi 30 menit) dari Antonakis di YouTube tentang endogenitas, di mana video itu digambarkan sebagai miasma yang rintik-rintik karena lebih ditekankan pada sifatnya yang merepotkan!
Marquis de Carabas
1
kata itu terlalu kuat.Z perlu dikorelasikan dengan X, dengan peringatan bahwa jika hubungan terlalu lemah, Anda mungkin akan mengalami masalah terkenal terkait dengan instrumen yang lemah.
Matthew Gunn
@ MatthewGunn Saya tidak menentukan ambang yang tepat, jadi sangat mata yang melihatnya. Makalah Staiger dan Stock '97 Econometrica berpendapat bahwa bias sampel terbatas (terhadap plim OLS) sebanding dengan F-statistik tahap pertama, jadi lebih tinggi selalu lebih baik dalam pikiran saya.
Dimitriy V. Masterov
Setuju bahwa "sangat" adalah salah satu istilah yang terbuka untuk interpretasi dan korelasi yang lebih tinggi lebih baik. Mengutip Rolling Stones, "Anda tidak selalu bisa mendapatkan yang Anda inginkan, tetapi jika Anda mencoba suatu saat, Anda mungkin akan menemukannya, Anda mendapatkan yang Anda butuhkan." : P Saya pribadi akan menulis "Zadalah cukup berkorelasi denganX: perkiraan berdasarkan instrumen yang lemah dapat menunjukkan bias sampel hingga yang signifikan. "
Matthew Gunn
1
@ user001 Tidak, asumsi ini tidak dapat diverifikasi. Tidak penting dalam spesifikasi itu memberi tahu Anda sangat sedikit.
Dimitriy V. Masterov
8

Mengikuti Inferensial Kausal Hernán dan Robins , Bab 16: Estimasi variabel instrumental, variabel instrumental memiliki empat asumsi / persyaratan:

  1. Zharus dikaitkan denganX.

  2. Z harus mempengaruhi secara kausal Y hanya melaluiX

  3. Tidak boleh ada penyebab sebelumnya dari keduanya Y dan Z.

  4. The efek dariX di Yharus homogen. Asumsi / persyaratan ini memiliki dua bentuk, lemah dan kuat :

    • Homogenitas yang lemah dari efek X di Y: Efek dariX di Y tidak berbeda dengan tingkat Z (yaitu Z tidak dapat mengubah efek dari X di Y).
    • Homogenitas yang kuat dari efek X di Y: Efek dari X di Y konstan di semua individu (atau apa pun unit analisis Anda).

Instrumen yang tidak memenuhi asumsi ini pada umumnya tidak valid. (2) dan (3) umumnya sulit untuk memberikan bukti kuat untuk (karenanya asumsi ).

Versi kuat dari kondisi (4) dapat menjadi asumsi yang sangat tidak masuk akal untuk tergantung pada sifat fenomena yang sedang dipelajari (misalnya efek obat pada kesehatan individu umumnya bervariasi dari individu ke individu). Versi lemah dari kondisi (4) mungkin memerlukan penggunaan estimator IV atipikal, tergantung pada keadaan.

Kelemahan efek dari Z di Xtidak benar-benar memiliki definisi formal. Tentu saja estimasi IV menghasilkan hasil yang bias ketika efek dariZ di X relatif kecil terhadap efek U (perancu tidak terukur) pada X, tetapi tidak ada titik keras dan cepat, dan bias tergantung pada ukuran sampel. Hernán dan Robins (dengan hormat dan konstruktif) kritis terhadap utilitas regresi IV relatif terhadap perkiraan berdasarkan penalaran sebab akibat formal dari pendekatan mereka (yaitu, pendekatan penalaran sebab akibat formal dari orang-orang kausalitas kontrafaktual seperti Pearl, dll.).

Hernán, MA dan Robins, JM (2017). Inferensial Kausal . Chapman & Hall / CRC.

Alexis
sumber
Bagaimana Anda bisa referensi dan mengutip dari buku ini? Menurut Amazon, itu tidak diterbitkan sampai Desember tahun ini.
Mike Hunter
1
@DJohnson Ikuti tautan saya (tersedia pdf pra-cetak). ;) Juga, saya mengambil kelas mereka 15 tahun yang lalu dan mereka membedahnya bahkan saat itu.
Alexis
@Alexis Apa intuisi tentang mengapa Anda membutuhkan homogenitas?
Dimitriy V. Masterov
@ DimitriyV.Masterov Ini adalah argumen yang canggih (lihat Poin teknis 16.3 di Hernán dan Robins), tetapi sama dengan ketidakcukupan asumsi / persyaratan 1-3 untuk sepenuhnya mengidentifikasi efek sebab-akibat rata-rata dari X di Y.
Alexis
0

Kedua asumsi tersebut dapat dilihat dengan melihat sistem persamaan:

x=γ1+γ2z+ϵy=β1+β2x+γ3z+u
  • The kekuatan instrumen berkaitan dengan koefisien γ20 dan ke R2 persamaan ini (keduanya harus cukup tinggi)

  • The validitas berkaitan dengan asumsi bahwaγ3=0yaitu z tidak memiliki efek langsung pada y.

Perhatikan bahwa kami tidak dapat menguji γ3=0, hanya berasumsi, yang menjelaskan mengapa itu disebut asumsi pengidentifikasi (= tidak dapat diuji).

Matifou
sumber
1
Masalah sehubungan dengan kekuatan instrumen adalah bahwa "cukup tinggi" tidak benar-benar memiliki definisi formal.
Alexis