Memahami teori d-separation dalam jaringan Bayesian kausal

15

Saya mencoba memahami logika d-Separation di Causal Bayesian Networks. Saya tahu bagaimana algoritma bekerja, tetapi saya tidak benar-benar mengerti mengapa "aliran informasi" bekerja seperti yang dinyatakan dalam algoritma

masukkan deskripsi gambar di sini

Sebagai contoh pada grafik di atas, mari kita berpikir bahwa kita hanya diberi X dan tidak ada variabel lain yang diamati. Kemudian menurut aturan pemisahan d, informasi mengalir dari X ke D:

  1. X mempengaruhi A, yaitu P(A)P(A|X) . Ini OK, karena A menyebabkan X dan jika kita tahu tentang efek X, ini memengaruhi keyakinan kita tentang penyebab A. Aliran informasi.

  2. X mempengaruhi B, yaitu P(B)P(B|X) . Ini OK, karena A telah diubah oleh pengetahuan kita tentang X, perubahan di A dapat memengaruhi keyakinan kita tentang penyebabnya, B, juga.

  3. X mempengaruhi C, yaitu P(C)P(C|X) . Ini OK karena kita tahu bahwa B bias oleh pengetahuan kita tentang efek tidak langsungnya, X, dan karena B bias oleh X, ini akan memengaruhi semua efek langsung dan tidak langsung B. C adalah efek langsung dari B dan dipengaruhi oleh pengetahuan kita tentang X.

Ya, sampai titik ini, semuanya baik-baik saja bagi saya karena aliran informasi terjadi sesuai dengan hubungan sebab-akibat intuitif. Tetapi saya tidak mendapatkan perilaku khusus dari apa yang disebut "V-Structure" atau "Colliders" dalam skema ini. Menurut teori d-Pemisahan, B dan D adalah penyebab umum C dalam grafik di atas dan dikatakan bahwa jika kita tidak mengamati C atau keturunannya, informasi aliran dari X diblokir di C. Nah, OK , tapi pertanyaan saya adalah mengapa?

Dari tiga langkah di atas, dimulai dari X, kami melihat bahwa C dipengaruhi oleh pengetahuan kami tentang X dan aliran informasi terjadi sesuai dengan hubungan sebab-akibat. Teori d-Separation mengatakan bahwa kita tidak bisa beralih dari C ke D karena C tidak diamati. Tapi saya pikir karena kita tahu bahwa C bias dan D adalah penyebab C, D harus terpengaruh juga, sementara teori mengatakan sebaliknya. Saya jelas kehilangan sesuatu dalam pola pikir saya tetapi tidak dapat melihat apa itu.

Jadi saya perlu penjelasan mengapa aliran informasi diblokir di C, jika C tidak diamati.

Ufuk Can Bicici
sumber
Itu tidak mengalir dari X ke D, jika hanya X yang diamati. Anda menyatakannya tepat di bawah gambar. (Meskipun Anda benar menggambarkannya lebih jauh ke bawah).
ziggystar
Saya sudah tahu ini, bahwa aliran informasi diblokir di C di mana kita memiliki "V-Structure". Yang ingin saya ketahui adalah mengapa; mengapa V-Structure memblokir aliran informasi ketika kita tidak mengamati C, dari sudut pandang hubungan sebab-akibat.
Ufuk Can Bicici

Jawaban:

6

Apakah itu tidak intuitif bahwa Anda tidak dapat beralasan dari sebab akibat yang tidak teramati ke sebab lain? Jika hujan (B) dan sprinkler (D) adalah penyebab dari tanah basah (C), maka dapatkah Anda berargumen bahwa melihat hujan menyiratkan bahwa tanah itu mungkin basah, dan terus beralasan bahwa sprinkler harus ada sejak tanah basah?! Tentu saja tidak. Anda berpendapat bahwa tanahnya basah karena hujan - Anda tidak dapat mencari penyebab tambahan!

Jika Anda mengamati tanah yang basah, tentu saja situasinya berubah. Sekarang Anda mungkin dapat beralasan dari satu sebab ke penyebab lain seperti yang dijelaskan Frank.

Neil G
sumber
4

Mari kita lupakan X sejenak dan pertimbangkan hanya collider dari B, C dan D. Alasan bahwa struktur-v dapat memblokir jalur antara B dan D adalah bahwa, secara umum, jika Anda memiliki dua variabel acak independen (B dan D) yang mempengaruhi hasil yang sama (C), kemudian mengetahui hasilnya dapat memungkinkan Anda untuk menarik kesimpulan tentang hubungan antara variabel acak, sehingga memungkinkan arus informasi.

P(B|D)P(B)P(D|B)P(D)). Oleh karena itu, mengetahui bahwa halaman basah akan membuka jalan dan membuat B dan D tergantung.

Untuk memahami ini lebih baik, mungkin berguna untuk melihat Paradox Berkson , yang menggambarkan situasi yang sama.

FrankD
sumber
1) Saya mengalami kesulitan memahami untuk melihat apa penyebab independen sebelum mendefinisikan apa pun tentang D-Pemisahan. Banyak penulis mendefinisikan D-Pemisahan dengan menggunakan hubungan sebab-akibat intuitif. Saya mencoba membangun sistem penalaran berdasarkan apa yang saya baca dari berbagai sumber dan berdasarkan intuisi saya sehingga saya bisa menerima teorema ini. Itu seperti berikut: "Jika tidak ada variabel yang diamati selain X, maka pengetahuan tentang X dapat mempengaruhi efek X (semua keturunan), penyebab langsung atau tidak langsung X (leluhur) dan semua efek lain dari penyebab X."
Ufuk Can Bicici
2) Saya membenarkan pemikiran ini seperti itu: A) X dapat mempengaruhi efek langsung dan tidak langsungnya, karena nilai-nilai X yang berbeda akan menghasilkan penyebab yang berbeda. B) X dapat memengaruhi penyebab langsung dan tidak langsung karena jika kita mengamati suatu efek, kita dapat memperoleh informasi baru tentang penyebabnya, dalam pendekatan diagnostik. C) X memengaruhi efek lain (tidak termasuk dirinya sendiri) dari semua penyebab langsung dan tidak langsungnya, karena pengetahuan tentang X mengubah keyakinan kami tentang penyebab ini yang pada gilirannya memengaruhi semua efek. Saya mencoba menafsirkan Jaringan Bayesian Kausal tersebut dengan pola ini. Apakah ini benar?
Ufuk Can Bicici
3) Ini seperti saya mencoba untuk membentuk pola "Aliran Informasi" yang intuitif untuk memahami perilaku ketergantungan-independen dari variabel. Dengan pola ini saya tidak bisa melihat apa penyebab independen dan di sinilah saya terjebak. Jelas saya melewatkan sesuatu atau saya mungkin benar-benar salah dengan pola pikir ini.
Ufuk Can Bicici
Saya pikir jawaban asli saya sedikit menyesatkan, karena saya menyebut B dan D sebagai 'penyebab' (diperbaiki sekarang). Aliran informasi adalah konsep yang terkait dengan pengamatan, bukan intervensi sebab akibat. Seperti yang Anda ketahui, dua variabel acak independen jika mengamati satu tidak memberi Anda informasi tentang yang kedua. Pernyataan Anda tampaknya mengacaukan pengamatan dan kesimpulan. Pengamatan X memungkinkan kita untuk menyesuaikan inferensi orang tuanya (pernyataan A), dan penyebab langsungnya, tetapi jika struktur-v menghalangi jalan, maka kita tidak dapat menyesuaikan inferensi untuk penyebab tidak langsung, karena alasan yang dijelaskan di atas.
FrankD
1

Ya, sampai titik ini, semuanya baik-baik saja bagi saya karena aliran informasi terjadi sesuai dengan hubungan sebab-akibat intuitif. Tapi saya tidak mendapatkan perilaku khusus dari apa yang disebut "V-Structure" atau "Colliders" dalam skema ini.

Maka kacang yang sulit retak di sini adalah struktur-v. Saya ingin mengilustrasikan perbedaan antara probabilitas variabel S yang dikondisikan hanya pada pengamatan efek dan pengaruh pengamatan variabel lain D yang independen terhadap S dalam situasi yang sama menggunakan contoh fiktif.

Katakanlah seseorang mengambil kursus, katakanlah aljabar linier. Jika dia bisa lulus, itu tergantung pada sulitnya ujian. Mari kita tunjukkan acara lulus kursus dengan P, lulus sebagai 1 dan 0 sebaliknya; dan kesulitan ujian sebagai D, sulit 1 dan semudah 0. Dan sesuatu yang tidak masuk akal juga dapat mempengaruhi kinerjanya atau hasilnya, katakanlah singularitas terjadi dan dia akan dicuci otak dengan mesin dan kemudian memutuskan untuk tidak ikut ujian. Kami menyatakan peristiwa itu dengan S, dan probabilitasnya adalah 0,0001. Kelihatannya mustahil tetapi menurut definisi kesempatannya tidak boleh nol.

Karenanya kita memiliki grafik bentuk-struktur v sekarang:

 D   S
  | |
 \| |/ 
   P  

P(¬P|S)=0,999999P(P|S)=0,000001

| d0   | d1      |      
|:-----|--------:|   
| 0.5  | 0.5     |  

| s0     | s1      |      
|:-------|--------:|   
| 0.9999 | 0.0001  |

| S     | D    | P(p0|S,D) | P(p1|S,D) |  
|:------|-----:|----------:|----------:|
|s0     | d0   |   0.20    |   0.80    |
|s0     | d1   |   0.90    |   0.10    |
|s1     | d0   |   0.999999|   0.000001|
|s1     | d1   |   0.999999|   0.000001| 

P(S|P)P(S|P,D)

1) Jika kita tidak tahu hasilnya, kita bisa menghitung probabilitas singularitas yang terjadi karena kursusnya mudah.

P(S|¬D)=P(S,P|¬D)+P(S,¬P|¬D)=P(S=1,P=1,D=0)P(D=0)+P(S=1,P=0,D=0)P(D=0)=P(S=1)P(D=0|S=1)P(P=1|D=0,S=1)P(D=0)+P(S=1)P(D=0|S=1)P(P=0|D=0,S=1)P(D=0)=P(S=1)P(D=0|S=1)P(D=0)=P(S=1)P(D=0)P(D=0)=P(S=1)=0,0001

Seperti yang Anda lihat di atas, tidak masalah apakah ujian telah lulus atau tidak. Apa yang datang sebagaimana mestinya datang. Ini dapat dilihat sebagai probabilitas marginal di atas P.

Dan kita juga bisa menghitung kemungkinan singularitas terjadi mengingat siswa tidak lulus ujian:

P(S,|¬P)=P(S,¬P)P(¬P)=P(S,¬p,D)+P(S,¬P,¬D)P(¬P)=P(¬P|S,D)P(S)P(D)+P(¬P|S,¬D)P(S)P(¬D)S,DP(¬P|S,D)P(S)P(D)=0.0001818

Knowing that the guy doesn't pass the exam we can guess that he may be brainwashed by a machine is 0.0001818 which is a little bigger than when we don't know it.

2) But what if we know that the guy failed the exam and the exam is easy?

P(S,|¬P,¬D)=P(S=1,P=0,D=0)P(P=0,D=0)=P(P=0|S=1,D=0)P(S=1)P(D=0)P(P=0|S=1,D=0)P(S=1)P(D=0)+P(P=0|S=0,D=0)P(S=0)P(D=0)=0.999999×0.0001×0.50.2×0.9999×0.5+0.999999×0.0001×0.5=0.0004998

Lo and behold, the change is much bigger than we just know he doesn't plass the exam. Then we see that P(S|P)P(S|P,D) we can infer that SD|PI(P(P,S,D)) which means D can influence S via P.

May this detailed derivation be of hlep.

Lerner Zhang
sumber