Apakah sebab akibat regresi jika tidak ada variabel yang dihilangkan?

13

Regresi y pada x tidak perlu kausal jika ada variabel yang dihilangkan yang mempengaruhi x dan y . Tetapi jika tidak untuk variabel yang dihilangkan dan kesalahan pengukuran, apakah kausalitas regresi? Artinya, jika setiap variabel yang mungkin dimasukkan dalam regresi?

Esha
sumber
4
Tidak, bahkan jika Anda memasukkan setiap variabel di dunia, itu bisa jadi kausal terbalik. Misalnya, kedekatan sebuah planet dengan bintang terdekatnya dapat diprediksi secara akurat oleh suhu permukaan planet itu, tetapi yang jelas kausalitasnya menuju ke arah lain
gazza89
@ gazza89 - karena itu efektif menjawab pertanyaan, Anda mungkin ingin mengembangkannya menjadi jawaban.
pelawak
3
Apa itu "variabel yang dihilangkan"? Misalkan saya memiliki satu Y dan 4 X dalam dataset saya. Saya cocok dengan model termasuk semua 4 Xs. Maka saya tidak punya variabel yang dihilangkan?
user158565

Jawaban:

20

Tidak, bukan, saya akan menunjukkan beberapa contoh tandingan.

Yang pertama adalah penyebab terbalik . Pertimbangkan model kausal adalah YX , di mana X dan Y adalah variabel acak standar gaussian. Kemudian E[Y|do(x)]=0 , karena X tidak menyebabkan Y , tetapi E[Y|x] akan tergantung pada X .

Contoh kedua adalah mengendalikan colliders (lihat di sini ). Pertimbangkan model sebab-akibat XZY , yaitu X tidak menyebabkan Y dan Z adalah penyebab umum. Tetapi perhatikan bahwa, jika Anda menjalankan regresi termasuk Z , koefisien regresi X tidak akan nol, karena pengkondisian pada penyebab umum akan menginduksi hubungan antara Y dan X (Anda mungkin ingin melihat di sini juga Analisis Jalur dalam Kehadiran Collider yang Dikondisikan ).

Lebih umum, regresi Y pada X akan menjadi penyebab jika variabel yang dimasukkan dalam regresi memenuhi kriteria backdoor .

Carlos Cinelli
sumber
3
Sangat merekomendasikan Book of Why, oleh Judea Pearl. Jelaskan dengan seksama apa yang dimaksud Carlos.
Markos Kashiouris
3
Apa arti ? do(x)
naught101
5
@ naught101 itu berarti Anda benar-benar memaksa X = x, berbeda dengan mengamati X = x secara pasif, lihat di sini stats.stackexchange.com/questions/211008/dox-operator-meaning/…
Carlos Cinelli
Terima kasih, tetapi saya tidak jelas tentang notasinya. Apakah berarti Z yang menyebabkan X dan Y ? Haruskah panah dibalik? XZYZXY
Esha
@ Esha Berarti dan y menyebabkan zxyz
Carlos Cinelli
6

Selain jawaban penting Carlos Cinelli untuk pertanyaan ini, ada beberapa alasan lagi bahwa koefisien regresi mungkin tidak bersifat kausal.

Pertama, kesalahan spesifikasi model dapat menyebabkan parameter menjadi non-kausal. Hanya karena Anda memiliki semua variabel yang relevan dalam model Anda tidak berarti Anda telah menyesuaikannya dengan cara yang benar. Sebagai contoh yang sangat sederhana, pertimbangkan variabel X yang didistribusikan secara simetris sekitar 0. Misalkan variabel hasil Anda Y dipengaruhi oleh X sedemikian rupa sehingga E(YX)=X2 . Regresing Y pada X (sebagai lawan dari X2 ) kemudian akan memberikan estimasi koefisien untuk X sekitar 0, jelas bias, meskipun Anda telah menyesuaikan untuk semua (satu-satunya) variabel yang mempengaruhiY .

Kedua, dan terkait dengan topik kausalitas terbalik, ada juga risiko bahwa Anda dapat memiliki bias seleksi , yaitu bahwa sampel Anda telah dipilih sedemikian rupa sehingga tidak mewakili populasi yang ingin Anda tarik kesimpulannya. Selain itu, data yang hilang juga dapat menimbulkan bias jika data tidak hilang sepenuhnya secara acak.

Phil
sumber