Regresi pada tidak perlu kausal jika ada variabel yang dihilangkan yang mempengaruhi dan . Tetapi jika tidak untuk variabel yang dihilangkan dan kesalahan pengukuran, apakah kausalitas regresi? Artinya, jika setiap variabel yang mungkin dimasukkan dalam regresi?
regression
bias
causality
Esha
sumber
sumber
Jawaban:
Tidak, bukan, saya akan menunjukkan beberapa contoh tandingan.
Yang pertama adalah penyebab terbalik . Pertimbangkan model kausal adalahY→X , di mana X dan Y adalah variabel acak standar gaussian. Kemudian E[Y|do(x)]=0 , karena X tidak menyebabkan Y , tetapi E[Y|x] akan tergantung pada X .
Contoh kedua adalah mengendalikan colliders (lihat di sini ). Pertimbangkan model sebab-akibatX→Z←Y , yaitu X tidak menyebabkan Y dan Z adalah penyebab umum. Tetapi perhatikan bahwa, jika Anda menjalankan regresi termasuk Z , koefisien regresi X tidak akan nol, karena pengkondisian pada penyebab umum akan menginduksi hubungan antara Y dan X (Anda mungkin ingin melihat di sini juga Analisis Jalur dalam Kehadiran Collider yang Dikondisikan ).
Lebih umum, regresiY pada X akan menjadi penyebab jika variabel yang dimasukkan dalam regresi memenuhi kriteria backdoor .
sumber
Selain jawaban penting Carlos Cinelli untuk pertanyaan ini, ada beberapa alasan lagi bahwa koefisien regresi mungkin tidak bersifat kausal.
Pertama, kesalahan spesifikasi model dapat menyebabkan parameter menjadi non-kausal. Hanya karena Anda memiliki semua variabel yang relevan dalam model Anda tidak berarti Anda telah menyesuaikannya dengan cara yang benar. Sebagai contoh yang sangat sederhana, pertimbangkan variabelX yang didistribusikan secara simetris sekitar 0. Misalkan variabel hasil Anda Y dipengaruhi oleh X sedemikian rupa sehingga E(Y∣X)=X2 . Regresing Y pada X (sebagai lawan dari X2 ) kemudian akan memberikan estimasi koefisien untuk X sekitar 0, jelas bias, meskipun Anda telah menyesuaikan untuk semua (satu-satunya) variabel yang mempengaruhiY .
Kedua, dan terkait dengan topik kausalitas terbalik, ada juga risiko bahwa Anda dapat memiliki bias seleksi , yaitu bahwa sampel Anda telah dipilih sedemikian rupa sehingga tidak mewakili populasi yang ingin Anda tarik kesimpulannya. Selain itu, data yang hilang juga dapat menimbulkan bias jika data tidak hilang sepenuhnya secara acak.
sumber