Saya bisa memikirkan setidaknya satu contoh naif. Misalkan saya ingin mempelajari hubungan antara X dan Z. Saya juga curiga bahwa Y mempengaruhi Z, jadi saya mengontrol untuk Y. Namun, ternyata, tanpa sepengetahuan saya, X menyebabkan Y, dan Y menyebabkan Z. Oleh karena itu, dengan mengendalikan untuk Y, saya "menutupi" hubungan antara X dan Z, karena X tidak bergantung pada Z yang diberikan Y.
Sekarang, dalam contoh sebelumnya, mungkin bahwa hubungan yang harus saya pelajari adalah hubungan antara X dan Y, dan Y dan Z. Namun, jika saya mengetahui hal-hal seperti itu secara apriori, saya tidak akan melakukan sains di posisi pertama. Penelitian yang saya lakukan sekarang menunjukkan bahwa tidak ada hubungan antara X dan Z, yang tidak terjadi .... X dan Z terkait.
Ini diilustrasikan dalam diagram ketergantungan berikut ini. Dalam skenario yang tepat, Z tergantung pada X dan Y dan X dan Y adalah independen. Kami benar mengontrol Y untuk menentukan hubungan antara X dan Z. Dalam skenario kiri Z tergantung pada Y yang tergantung pada X. X dan Z independen diberikan Y, sehingga hubungan antara X dan Z "ditutup-tutupi" dengan mengendalikan Y.
Pertanyaan saya pada dasarnya adalah "Kapan tepat untuk mengendalikan variabel Y dan kapan tidak?" ... Mungkin sulit atau tidak mungkin untuk menyelidiki sepenuhnya hubungan antara X dan Y, tetapi, misalnya, mengendalikan Y pada tingkat tertentu adalah sebuah pilihan. Bagaimana kita memutuskan sebelum melakukan penelitian kita, dan apa perangkap umum dari mengendalikan terlalu banyak atau terlalu sedikit?
Kutipan dihargai.
Jawaban:
Pengkondisian (yaitu penyesuaian) probabilitas dari beberapa hasil yang diberikan beberapa prediktor pada variabel ketiga dipraktikkan secara luas, tetapi seperti yang Anda tunjukkan dengan tepat, sebenarnya dapat memperkenalkan bias ke dalam estimasi yang dihasilkan sebagai representasi dari efek kausal . Ini bahkan dapat terjadi dengan definisi "klasik" tentang pembaur sebab akibat potensial, karena baik pembaur itu sendiri, dan pemrediksi kepentingan masing-masing dapat masing-masing memiliki pembaur sebab akibat lebih lanjut di hulu. Dalam DAG di bawah ini, misalnya, adalah perancu klasik dari efek kausal E pada D , karena (1) itu menyebabkan dan karena itu dikaitkan dengan E , dan (2) dikaitkan dengan D karena dikaitkan denganL E D E D yang berhubungan dengan D . Namun, pengkondisian atau stratifikasi P ( D | E ) pada L (a "collider") akan menghasilkan estimasi kausal yang bias dari efek E pada D karena L dikacaukan dengan D oleh variabel U 2 yang tidak terukur, dan L bingung dengan E oleh variabel tak terukur U 1 .U2 D P(D|E) L E D L D U2 L E U1
Memahami variabel mana yang mengkondisikan atau mengelompokkan analisis seseorang untuk memberikan estimasi kausal yang tidak bias membutuhkan pertimbangan cermat dari kemungkinan DAG menggunakan kriteria untuk pengidentifikasian efek sebab-akibat — tidak ada penyebab umum yang tidak diblokir oleh jalur backdoor — dijelaskan oleh Pearl, Robins, dan lainnya . Tidak ada jalan pintas. Pelajari pola-pola perancu yang umum. Pelajari pola bias seleksi umum. Praktek.
Referensi
Greenland, S., Pearl, J., dan Robins, JM (1999). Diagram kausal untuk penelitian epidemiologi . Epidemiologi , 10 (1): 37-48.
Hernán, MA dan Robins, JM (2018). Inferensial Kausal . Chapman & Hall / CRC, Boca Raton, FL
Maldonado, G. dan Greenland, S. (2002). Memperkirakan efek kausal . International Journal of Epidemiology , 31 (2): 422-438.
Pearl, J. (2000). Kausalitas: Model, Penalaran, dan Inferensi . Cambridge University Press.
sumber
Saya percaya jawaban satu kalimat cepat untuk pertanyaan Anda,
adalah "kriteria pintu belakang".
Model Kausal Struktural Judea Pearl dapat memberi tahu Anda secara pasti variabel mana yang cukup (dan bila perlu) untuk pengkondisian, untuk menyimpulkan dampak kausal dari satu variabel pada variabel lain. Yaitu, ini dijawab dengan menggunakan kriteria pintu belakang, yang dijelaskan pada halaman 19 dari makalah tinjauan ini oleh Pearl.
Peringatan utama adalah bahwa hal itu mengharuskan Anda untuk mengetahui hubungan sebab akibat antara variabel (dalam bentuk panah arah dalam grafik). Tidak ada jalan lain untuk itu. Di sinilah kesulitan dan subjektivitas yang mungkin bisa ikut bermain. Model kausal struktural Pearl hanya memungkinkan Anda untuk mengetahui bagaimana menjawab pertanyaan yang tepat diberikan model kausal (yaitu grafik berarah), yang mana set model kausal mungkin diberikan distribusi data, atau bagaimana mencari struktur kausal dengan melakukan eksperimen yang tepat. Itu tidak memberi tahu Anda bagaimana menemukan struktur kausal yang tepat hanya diberikan distribusi data. Bahkan, ia mengklaim bahwa ini tidak mungkin tanpa menggunakan pengetahuan eksternal / intuisi tentang makna variabel.
Kriteria pintu belakang dapat dinyatakan sebagai berikut:
Untuk menemukan dampak kausal pada Y , satu set simpul variabel S cukup untuk dikondisikan selama memenuhi kedua kriteria berikut:X Y, S
1) Tidak ada elemen dalam merupakan turunan dari XS X
2) memblokir semua jalur "pintu belakang" antara X dan YS X Y
Di sini, "pintu belakang" jalan hanyalah sebuah jalan panah yang dimulai pada dan akhir dengan panah yang menunjuk pada X . (Arah yang ditunjukkan oleh semua tanda panah lainnya tidak penting.) Dan "pemblokiran" adalah, kriteria itu sendiri yang memiliki arti khusus, yang diberikan pada halaman 11 dari tautan di atas. Ini adalah kriteria yang sama yang akan Anda baca ketika belajar tentang "pemisahan-D". Saya pribadi menemukan bahwa Bab 8 Pengenalan Pola dan Pembelajaran Mesin Bishop menjelaskan konsep pemblokiran dalam pemisahan-D yang jauh lebih baik daripada sumber Mutiara yang saya tautkan di atas. Tapi begini:Y X.
Seperangkat node, memblokir jalur antara X dan Y jika memenuhi setidaknya satu dari kriteria berikut:S, X Y
1) Salah satu node di jalan, yang juga di memancarkan setidaknya satu panah di jalan (yaitu panah mengarah menjauh dari node)S,
2) Sebuah simpul yang bukan di atau leluhur dari sebuah simpul di S memiliki dua panah di jalur "bertabrakan" ke arahnya (yaitu bertemu secara head-to-head)S S
Ini adalah atau kriteria, tidak seperti kriteria pintu belakang umum yang merupakan dan kriteria.
Agar lebih jelas tentang kriteria pintu belakang, apa yang dikatakannya kepada Anda adalah bahwa, untuk model sebab akibat tertentu, ketika mengkondisikan pada variabel yang cukup, Anda dapat mempelajari dampak sebab akibat dari distribusi probabilitas data. (Seperti yang kita ketahui, distribusi bersama saja tidak cukup untuk menemukan perilaku kausal karena beberapa struktur kausal dapat bertanggung jawab untuk distribusi yang sama. Inilah sebabnya mengapa model kausal diperlukan juga.) Distribusi dapat diperkirakan menggunakan statistik biasa / metode pembelajaran mesin pada data pengamatan. Jadi, selama Anda tahu bahwa struktur sebab akibat memungkinkan untuk mengkondisikan suatu variabel (atau serangkaian variabel), perkiraan dampak kausal dari satu variabel pada variabel lainnya sama baiknya dengan perkiraan distribusi data, yang Anda peroleh melalui metode statistik.
Inilah yang kami temukan ketika kami menerapkan kriteria pintu belakang untuk dua diagram Anda:
Dalam kasus juga tidak terdapat jalur back-pintu dari ke X . Jadi memang benar bahwa Y memblokir "semua" jalan belakang, karena tidak ada. Namun, pada diagram kiri, Y adalah turunan langsung X , sedangkan pada diagram kanan tidak. Oleh karena itu Y mengikuti kriteria pintu belakang pada diagram kanan, tetapi tidak ke kiri. Ini adalah hasil yang tidak mengejutkan.Z X. Y Y X, Y
Apa yang mengejutkan, bagaimanapun, adalah bahwa dalam diagram yang tepat, asalkan adalah gambaran lengkap, Anda tidak perlu kondisi di untuk mendapatkan dampak kausal penuh X pada Z . (Mengatakan dengan cara lain, set nol memenuhi kriteria pintu belakang, dan karenanya, cukup untuk pengkondisian.) Secara intuitif ini benar karena nilai X tidak terkait dengan Y sehingga untuk data yang cukup Anda cukup rata-rata nilai-nilai Y untuk meminggirkan efek Y pada Z . Satu keberatan untuk poin ini adalah bahwa datanya terbatas, sehingga Anda tidak memiliki distribusi yang representatifY X Z X Y Y Y Z. Nilai Y. Tetapi ingat bahwa kriteria pintu belakang mengasumsikan Anda memiliki distribusi probabilitas data. Dalam hal ini Anda analitis dapat meminggirkan Y . Marginalisasi atas kumpulan data yang terbatas hanyalah perkiraan. Juga, perhatikan bahwa inisangattidak mungkin bahwa ini adalah gambaran lengkap. Ada faktor eksternal kemungkinan bahwa dampak X . Jika faktor-faktor itu juga dikaitkan dengan Y dengan cara apa pun, maka lebih banyak pekerjaan yang harus dilakukan untuk melihat apakah Y harus dikondisikan, atau apakah itu bahkan cukup. Jika Anda menggambar panah lain yang menunjuk dari Y ke X maka Y menjadi perlu untuk dikendalikan.Y Y. X. Y Y Y X Y
Itu, tentu saja, adalah contoh yang sangat sederhana di mana intuisi cukup untuk mengetahui kapan dapat atau tidak dapat dikendalikan. Tapi berikut adalah beberapa contoh di mana itu tidak jelas dengan melihat diagram, dan Anda dapat menggunakan kriteria pintu belakang. Untuk diagram berikut kami meminta jika itu sudah cukup untuk mengendalikan Y ketika menentukan dampak kausal dari X pada Z .Y Y X Z.
Hal pertama yang harus diperhatikan adalah bahwa, dalam kedua kasus, adalah bukan keturunan X . Jadi itu melewati kriteria itu. Hal berikutnya untuk dicatat adalah bahwa, dalam kedua kasus, ada beberapa backdoor jalur dari Z ke X . Dua di diagram kiri dan tiga di kanan.Y X. Z X.
Dalam diagram sebelah kiri jalan backdoor yang dan Z ← W → B ← A → X .Z←Y→X Z←W→B←A→X. memblokir jalur pertama karena merupakan simpul pemancar panah yang berada langsung di jalur tersebut. Y jugamemblokir jalur kedua karena itu bukan B , juga bukan keturunan B , yang merupakan satu-satunya panah yang bertabrakan simpul di jalan. Oleh karena itu Y adalah perangkat yang memadai untuk pengkondisian. (Catatan, tidak seperti padadiagram kananAnda, set nol tidak cukup untuk pengkondisian, karena itu tidak memblokir jalan Z ← Y → X. )Y Y B, B, Y Z←Y→X
Dalam diagram kanan jalan backdoor adalah dua sama seperti di sebelah kiri, ditambah jalurZ←W→B→Y→X. tidakmemblokir jalur ini, karena ini adalah simpul pemancar panah di jalur. Itu juga memblokir jalan Z ← Y → X untuk alasan yang sama seperti diagram kiri. Namun, itutidakmenghalangi jalan Z ← W → B ← A → X , karena merupakan keturunan langsung dari collider simpul B . Karena itutidakcukup untuk pengkondisian.Y Z←Y→X Z←W→B←A→X, B.
Sangat tidak intuitif untuk melihat mengapa cukup untuk pengkondisian pada diagram kiri, karena variabel eksogen A dan W yang mempengaruhi masing-masing X dan Z. Namun, kira tidak ada B . Dalam hal ini, tidak akan ada hubungan palsu antara X dan Z karena variabel eksogen ini sehingga mereka tidak menjadi perhatian. Keberadaan B , bagaimanapun, mempertanyakan hal itu. Jika B diizinkan untuk mengambil nilai apa pun yang secara alami dibutuhkan, diberikan A dan WY A W X Z B. X Z B, B A W , itu tidak akan menjadi masalah karena tidak memiliki dampak pada variabel penting, atau variabel eksogen menentukannya. Namun, jika (atau keturunannya) dikontrol maka ia benar-benar membuat A dan W bergantung, yang menciptakan hubungan palsu antara X dan Z yang tidak kita inginkan. Seperti disebutkan dalam sumber tertaut, ini adalah contoh dari paradoks Berkson , di mana pengamatan terhadap variabel yang disebabkan oleh dua sumber independen membuat sumber-sumber itu bergantung (misalnya, hasil dua flip koin independen dirubah tergantung pada pengamatan jumlah total kepala terbalik).B A W X Z
Seperti yang saya sebutkan sebelumnya, penggunaan kriteria pintu belakang mengharuskan Anda mengetahui model kausal (yaitu diagram "benar" panah antara variabel). Tetapi Model Kausal Struktural, menurut pendapat saya, juga memberikan cara terbaik dan paling formal untuk mencari model seperti itu, atau untuk mengetahui kapan pencarian itu sia-sia. Ini juga memiliki efek samping yang indah dari istilah-istilah render seperti "pembaur", "mediasi", dan "palsu" (yang semuanya membingungkan saya) sudah usang. Cukup tunjukkan gambar itu dan saya akan memberi tahu Anda lingkaran mana yang harus dikontrol.
sumber
Berikut ini mungkin atau mungkin tidak sesuai dengan kasus Anda: jika
X
merupakan pengobatan, maka Anda mungkin dapat mengatasi masalah Anda dengan menggunakan pencocokan skor kecenderungan di mana Anda masih akan menyimpan variabelY
ketika Anda melakukan pencocokan. Dengan kata lain, Anda menyeimbangkan kovariat (Y
adalah salah satu dari kovariat tersebut) yang memprediksi menerima perawatanX
.Perhatikan bagaimana tidak ada referensi ke variabel hasil
Z
di atas. Anda juga dapat memeriksa seberapa seimbang pengamatan Anda (dengan menghasilkan tabel keseimbangan sebelum dan sesudah mencocokkan), yang mungkin memberi Anda wawasan tentang berapa banyakX
yang ditentukan olehY
.sumber