Kapan tidak tepat mengontrol suatu variabel?

15

Saya bisa memikirkan setidaknya satu contoh naif. Misalkan saya ingin mempelajari hubungan antara X dan Z. Saya juga curiga bahwa Y mempengaruhi Z, jadi saya mengontrol untuk Y. Namun, ternyata, tanpa sepengetahuan saya, X menyebabkan Y, dan Y menyebabkan Z. Oleh karena itu, dengan mengendalikan untuk Y, saya "menutupi" hubungan antara X dan Z, karena X tidak bergantung pada Z yang diberikan Y.

Sekarang, dalam contoh sebelumnya, mungkin bahwa hubungan yang harus saya pelajari adalah hubungan antara X dan Y, dan Y dan Z. Namun, jika saya mengetahui hal-hal seperti itu secara apriori, saya tidak akan melakukan sains di posisi pertama. Penelitian yang saya lakukan sekarang menunjukkan bahwa tidak ada hubungan antara X dan Z, yang tidak terjadi .... X dan Z terkait.

Ini diilustrasikan dalam diagram ketergantungan berikut ini. Dalam skenario yang tepat, Z tergantung pada X dan Y dan X dan Y adalah independen. Kami benar mengontrol Y untuk menentukan hubungan antara X dan Z. Dalam skenario kiri Z tergantung pada Y yang tergantung pada X. X dan Z independen diberikan Y, sehingga hubungan antara X dan Z "ditutup-tutupi" dengan mengendalikan Y.

hubungan variabel

Pertanyaan saya pada dasarnya adalah "Kapan tepat untuk mengendalikan variabel Y dan kapan tidak?" ... Mungkin sulit atau tidak mungkin untuk menyelidiki sepenuhnya hubungan antara X dan Y, tetapi, misalnya, mengendalikan Y pada tingkat tertentu adalah sebuah pilihan. Bagaimana kita memutuskan sebelum melakukan penelitian kita, dan apa perangkap umum dari mengendalikan terlalu banyak atau terlalu sedikit?

Kutipan dihargai.

Scott
sumber
7
Sebagai contoh, situasi Anda yang sebenarnya muncul dalam menilai dampak diskriminasi ras. Biarkan X menjadi ras. Biarkan Z menjadi upah. Biarkan Y menjadi pendidikan. Jelas pendidikan berdampak pada upah, jadi Anda ingin mengendalikannya, TETAPI jika diskriminasi rasial menyebabkan minoritas ras menerima pendidikan yang lebih buruk maka mengendalikan pendidikan akan menutupi diskriminasi itu. Misalnya. lihat Neal dan Johnson (1996) . Seperti yang ditunjukkan oleh jawaban Alexis, Anda harus masuk ke bagian khusus masalah Anda. Tidak ada tombol sederhana untuk menekan yang memecahkan segalanya.
Matthew Gunn
1
Saya tidak punya harapan untuk menekan tombol sederhana. Memang, saya akan sangat kecewa jika pertanyaan saya ternyata memiliki jawaban yang sepele. :)
Scott
1
@Repmat Ya. Namun, 4 asumsi estimasi IV jarang dipenuhi, dan bahkan ketika mereka, kekuatan asosiasi yang terlibat dapat membuat estimasi IV memberikan hasil yang bias. Lihat, misalnya, Estimasi Penyebab Hernán dan Robins (kutipan lengkap dan tautan dalam jawaban saya), bab 16: Estimasi variabel instrumental.
Alexis
1
@Alexis Secara alami, infus sulit didapat ... "Tidak ada makan siang gratis" dan bagaimanapun, ketika Anda melakukannya, Anda akan sering mengetahuinya dengan sedikit atau tanpa keraguan.
Repmat
1
@Repmat ... asumsi untuk perkiraan IV yang valid membutuhkan lebih dari yang digambarkan DAG ... mereka benar-benar sangat lemah.
Alexis

Jawaban:

7

Pengkondisian (yaitu penyesuaian) probabilitas dari beberapa hasil yang diberikan beberapa prediktor pada variabel ketiga dipraktikkan secara luas, tetapi seperti yang Anda tunjukkan dengan tepat, sebenarnya dapat memperkenalkan bias ke dalam estimasi yang dihasilkan sebagai representasi dari efek kausal . Ini bahkan dapat terjadi dengan definisi "klasik" tentang pembaur sebab akibat potensial, karena baik pembaur itu sendiri, dan pemrediksi kepentingan masing-masing dapat masing-masing memiliki pembaur sebab akibat lebih lanjut di hulu. Dalam DAG di bawah ini, misalnya, adalah perancu klasik dari efek kausal E pada D , karena (1) itu menyebabkan dan karena itu dikaitkan dengan E , dan (2) dikaitkan dengan D karena dikaitkan denganLEDED yang berhubungan dengan D . Namun, pengkondisian atau stratifikasi P ( D | E ) pada L (a "collider") akan menghasilkan estimasi kausal yang bias dari efek E pada D karena L dikacaukan dengan D oleh variabel U 2 yang tidak terukur, dan L bingung dengan E oleh variabel tak terukur U 1 .U2DP(D|E)LEDLDU2LEU1

DAG

Memahami variabel mana yang mengkondisikan atau mengelompokkan analisis seseorang untuk memberikan estimasi kausal yang tidak bias membutuhkan pertimbangan cermat dari kemungkinan DAG menggunakan kriteria untuk pengidentifikasian efek sebab-akibat — tidak ada penyebab umum yang tidak diblokir oleh jalur backdoor — dijelaskan oleh Pearl, Robins, dan lainnya . Tidak ada jalan pintas. Pelajari pola-pola perancu yang umum. Pelajari pola bias seleksi umum. Praktek.

Referensi

Greenland, S., Pearl, J., dan Robins, JM (1999). Diagram kausal untuk penelitian epidemiologi . Epidemiologi , 10 (1): 37-48.

Hernán, MA dan Robins, JM (2018). Inferensial Kausal . Chapman & Hall / CRC, Boca Raton, FL

Maldonado, G. dan Greenland, S. (2002). Memperkirakan efek kausal . International Journal of Epidemiology , 31 (2): 422-438.

Pearl, J. (2000). Kausalitas: Model, Penalaran, dan Inferensi . Cambridge University Press.

Alexis
sumber
12

Saya percaya jawaban satu kalimat cepat untuk pertanyaan Anda,

Kapan tepat untuk mengontrol variabel Y dan kapan tidak?

adalah "kriteria pintu belakang".

Model Kausal Struktural Judea Pearl dapat memberi tahu Anda secara pasti variabel mana yang cukup (dan bila perlu) untuk pengkondisian, untuk menyimpulkan dampak kausal dari satu variabel pada variabel lain. Yaitu, ini dijawab dengan menggunakan kriteria pintu belakang, yang dijelaskan pada halaman 19 dari makalah tinjauan ini oleh Pearl.

Peringatan utama adalah bahwa hal itu mengharuskan Anda untuk mengetahui hubungan sebab akibat antara variabel (dalam bentuk panah arah dalam grafik). Tidak ada jalan lain untuk itu. Di sinilah kesulitan dan subjektivitas yang mungkin bisa ikut bermain. Model kausal struktural Pearl hanya memungkinkan Anda untuk mengetahui bagaimana menjawab pertanyaan yang tepat diberikan model kausal (yaitu grafik berarah), yang mana set model kausal mungkin diberikan distribusi data, atau bagaimana mencari struktur kausal dengan melakukan eksperimen yang tepat. Itu tidak memberi tahu Anda bagaimana menemukan struktur kausal yang tepat hanya diberikan distribusi data. Bahkan, ia mengklaim bahwa ini tidak mungkin tanpa menggunakan pengetahuan eksternal / intuisi tentang makna variabel.

Kriteria pintu belakang dapat dinyatakan sebagai berikut:

Untuk menemukan dampak kausal pada Y , satu set simpul variabel S cukup untuk dikondisikan selama memenuhi kedua kriteria berikut:XY,S

1) Tidak ada elemen dalam merupakan turunan dari XSX

2) memblokir semua jalur "pintu belakang" antara X dan YSXY

Di sini, "pintu belakang" jalan hanyalah sebuah jalan panah yang dimulai pada dan akhir dengan panah yang menunjuk pada X . (Arah yang ditunjukkan oleh semua tanda panah lainnya tidak penting.) Dan "pemblokiran" adalah, kriteria itu sendiri yang memiliki arti khusus, yang diberikan pada halaman 11 dari tautan di atas. Ini adalah kriteria yang sama yang akan Anda baca ketika belajar tentang "pemisahan-D". Saya pribadi menemukan bahwa Bab 8 Pengenalan Pola dan Pembelajaran Mesin Bishop menjelaskan konsep pemblokiran dalam pemisahan-D yang jauh lebih baik daripada sumber Mutiara yang saya tautkan di atas. Tapi begini:YX.

Seperangkat node, memblokir jalur antara X dan Y jika memenuhi setidaknya satu dari kriteria berikut:S,XY

1) Salah satu node di jalan, yang juga di memancarkan setidaknya satu panah di jalan (yaitu panah mengarah menjauh dari node)S,

2) Sebuah simpul yang bukan di atau leluhur dari sebuah simpul di S memiliki dua panah di jalur "bertabrakan" ke arahnya (yaitu bertemu secara head-to-head)SS

Ini adalah atau kriteria, tidak seperti kriteria pintu belakang umum yang merupakan dan kriteria.

Agar lebih jelas tentang kriteria pintu belakang, apa yang dikatakannya kepada Anda adalah bahwa, untuk model sebab akibat tertentu, ketika mengkondisikan pada variabel yang cukup, Anda dapat mempelajari dampak sebab akibat dari distribusi probabilitas data. (Seperti yang kita ketahui, distribusi bersama saja tidak cukup untuk menemukan perilaku kausal karena beberapa struktur kausal dapat bertanggung jawab untuk distribusi yang sama. Inilah sebabnya mengapa model kausal diperlukan juga.) Distribusi dapat diperkirakan menggunakan statistik biasa / metode pembelajaran mesin pada data pengamatan. Jadi, selama Anda tahu bahwa struktur sebab akibat memungkinkan untuk mengkondisikan suatu variabel (atau serangkaian variabel), perkiraan dampak kausal dari satu variabel pada variabel lainnya sama baiknya dengan perkiraan distribusi data, yang Anda peroleh melalui metode statistik.

Inilah yang kami temukan ketika kami menerapkan kriteria pintu belakang untuk dua diagram Anda:

Dalam kasus juga tidak terdapat jalur back-pintu dari ke X . Jadi memang benar bahwa Y memblokir "semua" jalan belakang, karena tidak ada. Namun, pada diagram kiri, Y adalah turunan langsung X , sedangkan pada diagram kanan tidak. Oleh karena itu Y mengikuti kriteria pintu belakang pada diagram kanan, tetapi tidak ke kiri. Ini adalah hasil yang tidak mengejutkan.ZX.YYX,Y

Apa yang mengejutkan, bagaimanapun, adalah bahwa dalam diagram yang tepat, asalkan adalah gambaran lengkap, Anda tidak perlu kondisi di untuk mendapatkan dampak kausal penuh X pada Z . (Mengatakan dengan cara lain, set nol memenuhi kriteria pintu belakang, dan karenanya, cukup untuk pengkondisian.) Secara intuitif ini benar karena nilai X tidak terkait dengan Y sehingga untuk data yang cukup Anda cukup rata-rata nilai-nilai Y untuk meminggirkan efek Y pada Z . Satu keberatan untuk poin ini adalah bahwa datanya terbatas, sehingga Anda tidak memiliki distribusi yang representatifYXZXYYYZ.Nilai Y. Tetapi ingat bahwa kriteria pintu belakang mengasumsikan Anda memiliki distribusi probabilitas data. Dalam hal ini Anda analitis dapat meminggirkan Y . Marginalisasi atas kumpulan data yang terbatas hanyalah perkiraan. Juga, perhatikan bahwa inisangattidak mungkin bahwa ini adalah gambaran lengkap. Ada faktor eksternal kemungkinan bahwa dampak X . Jika faktor-faktor itu juga dikaitkan dengan Y dengan cara apa pun, maka lebih banyak pekerjaan yang harus dilakukan untuk melihat apakah Y harus dikondisikan, atau apakah itu bahkan cukup. Jika Anda menggambar panah lain yang menunjuk dari Y ke X maka Y menjadi perlu untuk dikendalikan.YY.X.YYYXY

Itu, tentu saja, adalah contoh yang sangat sederhana di mana intuisi cukup untuk mengetahui kapan dapat atau tidak dapat dikendalikan. Tapi berikut adalah beberapa contoh di mana itu tidak jelas dengan melihat diagram, dan Anda dapat menggunakan kriteria pintu belakang. Untuk diagram berikut kami meminta jika itu sudah cukup untuk mengendalikan Y ketika menentukan dampak kausal dari X pada Z .YYXZ.

Is it sufficient to control for $Y$ to find the causal impact of $X$ on $Z$?

Hal pertama yang harus diperhatikan adalah bahwa, dalam kedua kasus, adalah bukan keturunan X . Jadi itu melewati kriteria itu. Hal berikutnya untuk dicatat adalah bahwa, dalam kedua kasus, ada beberapa backdoor jalur dari Z ke X . Dua di diagram kiri dan tiga di kanan.YX.ZX.

Dalam diagram sebelah kiri jalan backdoor yang dan Z W B A X .ZYXZWBAX. memblokir jalur pertama karena merupakan simpul pemancar panah yang berada langsung di jalur tersebut. Y jugamemblokir jalur kedua karena itu bukan B , juga bukan keturunan B , yang merupakan satu-satunya panah yang bertabrakan simpul di jalan. Oleh karena itu Y adalah perangkat yang memadai untuk pengkondisian. (Catatan, tidak seperti padadiagram kananAnda, set nol tidak cukup untuk pengkondisian, karena itu tidak memblokir jalan Z Y X. )YY B,B,YZYX

Dalam diagram kanan jalan backdoor adalah dua sama seperti di sebelah kiri, ditambah jalur ZWBYX. tidakmemblokir jalur ini, karena ini adalah simpul pemancar panah di jalur. Itu juga memblokir jalan Z Y X untuk alasan yang sama seperti diagram kiri. Namun, itutidakmenghalangi jalan Z W B A X , karena merupakan keturunan langsung dari collider simpul B . Karena itutidakcukup untuk pengkondisian.Y ZYXZWBAX,B.

Sangat tidak intuitif untuk melihat mengapa cukup untuk pengkondisian pada diagram kiri, karena variabel eksogen A dan W yang mempengaruhi masing-masing X dan Z. Namun, kira tidak ada B . Dalam hal ini, tidak akan ada hubungan palsu antara X dan Z karena variabel eksogen ini sehingga mereka tidak menjadi perhatian. Keberadaan B , bagaimanapun, mempertanyakan hal itu. Jika B diizinkan untuk mengambil nilai apa pun yang secara alami dibutuhkan, diberikan A dan WYAWXZB.XZB,BAW, itu tidak akan menjadi masalah karena tidak memiliki dampak pada variabel penting, atau variabel eksogen menentukannya. Namun, jika (atau keturunannya) dikontrol maka ia benar-benar membuat A dan W bergantung, yang menciptakan hubungan palsu antara X dan Z yang tidak kita inginkan. Seperti disebutkan dalam sumber tertaut, ini adalah contoh dari paradoks Berkson , di mana pengamatan terhadap variabel yang disebabkan oleh dua sumber independen membuat sumber-sumber itu bergantung (misalnya, hasil dua flip koin independen dirubah tergantung pada pengamatan jumlah total kepala terbalik).BAWXZ

Seperti yang saya sebutkan sebelumnya, penggunaan kriteria pintu belakang mengharuskan Anda mengetahui model kausal (yaitu diagram "benar" panah antara variabel). Tetapi Model Kausal Struktural, menurut pendapat saya, juga memberikan cara terbaik dan paling formal untuk mencari model seperti itu, atau untuk mengetahui kapan pencarian itu sia-sia. Ini juga memiliki efek samping yang indah dari istilah-istilah render seperti "pembaur", "mediasi", dan "palsu" (yang semuanya membingungkan saya) sudah usang. Cukup tunjukkan gambar itu dan saya akan memberi tahu Anda lingkaran mana yang harus dikontrol.

Bridgeburners
sumber
3
Bagus. Saya sedang berdebat apakah akan menambahkan Kausalitas Pearl ke bagian referensi dari jawaban saya .... dan sekarang telah melakukannya. :)
Alexis
0

Berikut ini mungkin atau mungkin tidak sesuai dengan kasus Anda: jika Xmerupakan pengobatan, maka Anda mungkin dapat mengatasi masalah Anda dengan menggunakan pencocokan skor kecenderungan di mana Anda masih akan menyimpan variabel Yketika Anda melakukan pencocokan. Dengan kata lain, Anda menyeimbangkan kovariat ( Yadalah salah satu dari kovariat tersebut) yang memprediksi menerima perawatan X.
Perhatikan bagaimana tidak ada referensi ke variabel hasil Zdi atas. Anda juga dapat memeriksa seberapa seimbang pengamatan Anda (dengan menghasilkan tabel keseimbangan sebelum dan sesudah mencocokkan), yang mungkin memberi Anda wawasan tentang berapa banyak Xyang ditentukan oleh Y.

NadTeX
sumber