Apakah kemandirian statistik berarti kurangnya sebab-akibat?

40

Dua variabel acak A dan B secara statistik independen. Itu berarti bahwa dalam DAG proses: dan tentu saja . Tetapi apakah itu juga berarti bahwa tidak ada pintu depan dari B ke A?(AB)P(A|B)=P(A)

Karena dengan begitu kita harus mendapatkan . Jadi jika itu masalahnya, apakah independensi statistik secara otomatis berarti kurangnya sebab-akibat?P(A|do(B))=P(A)

pengguna1834069
sumber

Jawaban:

37

Jadi jika itu masalahnya, apakah independensi statistik secara otomatis berarti kurangnya sebab-akibat?

Tidak, dan ini contoh contoh sederhana dengan normal multivarian,

set.seed(100)
n <- 1e6
a <- 0.2
b <- 0.1
c <- 0.5
z <- rnorm(n)
x <- a*z + sqrt(1-a^2)*rnorm(n)
y <- b*x - c*z + sqrt(1- b^2 - c^2 +2*a*b*c)*rnorm(n)
cor(x, y)

Dengan grafik yang sesuai,

masukkan deskripsi gambar di sini

Di sini kita memiliki bahwa dan sedikit independen (dalam kasus normal multivariat, nol korelasi menyiratkan independensi). Ini terjadi karena jalur backdoor melalui tepat membatalkan jalur langsung dari ke , yaitu, . Jadi . Namun, secara langsung menyebabkan , dan kami memiliki , yang berbeda dari .xyzxycov(x,y)=bac=0.10.1=0E[Y|X=x]=E[Y]=0xyE[Y|do(X=x)]=bxE[Y]=0

Asosiasi, intervensi, dan kontrafaktual

Saya pikir ini penting untuk membuat beberapa klarifikasi di sini mengenai asosiasi, intervensi, dan kontrafaktual.

Model sebab-akibat memerlukan pernyataan tentang perilaku sistem: (i) di bawah pengamatan pasif, (ii) di bawah intervensi, serta (iii) kontrafaktual. Dan independensi pada satu level tidak harus diterjemahkan ke level lain.

Seperti yang ditunjukkan contoh di atas, kita tidak dapat memiliki hubungan antara dan , yaitu, , dan masih menjadi kasus bahwa manipulasi pada mengubah distribusi , yaitu, .XYP(Y|X)=P(Y)XYP(Y|do(x))P(Y)

Sekarang, kita bisa melangkah lebih jauh. Kita dapat memiliki model sebab-akibat di mana intervensi pada tidak mengubah distribusi populasi , tetapi itu tidak berarti kurangnya sebab-sebab kontrafaktual! Yaitu, meskipun , untuk setiap individu hasil mereka akan berbeda jika Anda mengubah nya . Inilah tepatnya kasus yang dijelaskan oleh user20160, serta dalam jawaban saya sebelumnya di sini.XYP(Y|do(x))=P(Y)YX

Tiga level ini membuat hierarki tugas inferensial kausal , dalam hal informasi yang diperlukan untuk menjawab pertanyaan pada masing-masing.

Carlos Cinelli
sumber
1
Terima kasih, itulah tepatnya yang saya cari. Jadi saya kira kebingungan saya disebabkan (tidak ada permainan kata-kata) dari berpikir bahwa kemandirian statistik juga berarti pemisahan D antara kedua variabel. Tapi itu hanya bekerja sebaliknya, benar?
user1834069
@ user1834069 itu benar, pemisahan d menyiratkan independensi, tetapi kemerdekaan tidak menyiratkan pemisahan d. Keduanya adalah contoh di mana distribusinya tidak sesuai dengan grafik, dan Anda dapat melihatnya tergantung pada pilihan parameterisasi. Jika kita mengubah parameter, maka ketergantungan muncul lagi.
Carlos Cinelli
Contoh yang bagus. Jika saya ingat dengan benar, ini adalah salah satu asumsi penambangan data kausal yang tidak dapat diuji dari data pengamatan. Untuk model linier dalam SEM, buku Pearl juga menyebutkan bahwa set koefisien yang menghasilkan distribusi yang tidak setia adalah dengan ukuran 0.
Vimal
37

Misalkan kita memiliki bola lampu yang dikendalikan oleh dua sakelar. Misalkan dan menunjukkan status sakelar, yang dapat berupa 0 atau 1. Misalkan menunjukkan status lighbulb, yang dapat berupa 0 (mati) atau 1 (menyala). Kami mengatur sirkuit sedemikian sehingga lighbulb menyala ketika dua sakelar berada di kondisi yang berbeda, dan mati saat sakelar itu berada di kondisi yang sama. Jadi, sirkuit mengimplementasikan fungsi atau eksklusif: .S1S2LL=XOR(S1,S2)

Dengan konstruksi, terkait dengan dan . Mengingat konfigurasi sistem apa pun, jika kita membalik satu sakelar, keadaan bohlam akan berubah.LS1S2

Sekarang, anggap kedua switch digerakkan secara independen sesuai dengan proses Bernoulli, di mana probabilitas berada dalam keadaan 1 adalah 0,5. Jadi, , dan dan independen. Dalam hal ini, kita tahu dari desain sirkuit bahwa dan, lebih lanjut, . Artinya, mengetahui keadaan satu sakelar tidak memberi tahu kami tentang apakah lighbulb akan hidup atau mati. Jadi dan independen, demikian juga dan .p(S1=1)=p(S2=1)=0.5S1S2P(L=1)=0.5p(LS1)=p(LS2)=p(L)LS1LS2

Namun, seperti di atas, terkait dengan dan . Jadi, kemandirian statistik tidak menyiratkan kurangnya sebab akibat.LS1S2

pengguna20160
sumber
2
pengguna, Anda benar bahwa contoh ini memiliki sebab akibat dengan tidak adanya ketergantungan, seperti yang saya jelaskan di sini stats.stackexchange.com/questions/26300/… , namun dalam contoh ini kami juga memiliki , jadi itu tidak menjawab pertanyaan OP secara langsung. P(L|do(S1))=P(L)
Carlos Cinelli
pengguna, pertanyaan tolong: bagaimana dengan ? Yaitu apakah sama dengan juga? Saya pribadi berpikir, untuk setiap , , tetapi . Apakah saya benar? (Saya melihat itu tidak benar-benar terkait, tetapi saya ingin memeriksa kembali pemahaman saya)p(L|S1,S2)p(L)(vL,v1,v2){0,1}3p(L=vL|S1=v1)=p(L=vL|S2=v2)=0.5 p(L=vL|S1=v1,S2=v2){0,1}
manusia gua
0

Berdasarkan pertanyaan Anda, Anda dapat berpikir seperti ini:

P(AB)=P(A)P(B) ketika dan independen. Anda juga bisa menyiratkan hal yang samaAB

P(AB)/P(A)=P(B|A)=P(B) . Juga,

P(AB)/P(B)=P(A|B)=P(A) .

Dalam hal ini, saya percaya bahwa kemerdekaan berarti kurangnya sebab akibat. Namun, ketergantungan tidak selalu menyiratkan sebab-akibat.

Syekh
sumber
2
Saya bertanya apakah berarti ? (menggunakan notasi Pearl Do-calculus)P ( A | d o ( B ) ) = P ( A )P(AB)=P(A)P(B)P(A|do(B))=P(A)
user1834069