Dalam kondisi apa korelasi menyiratkan penyebab?

85

Kita semua tahu mantra "korelasi tidak menyiratkan sebab akibat" yang dimasukkan ke dalam semua siswa statistik tahun pertama. Ada beberapa contoh bagus di sini untuk menggambarkan ide tersebut.

Tetapi kadang-kadang korelasi memang menyiratkan sebab-akibat. Contoh berikut diambil dari halaman Wikipedia ini

Misalnya, seseorang dapat menjalankan percobaan pada kembar identik yang diketahui secara konsisten mendapatkan nilai yang sama pada tes mereka. Satu kembar dikirim untuk belajar selama enam jam sementara yang lain dikirim ke taman hiburan. Jika skor tes mereka tiba-tiba menyimpang sebagian besar, ini akan menjadi bukti kuat bahwa belajar (atau pergi ke taman hiburan) memiliki efek kausal pada skor tes. Dalam hal ini, korelasi antara belajar dan skor tes hampir pasti menyiratkan penyebab.

Apakah ada situasi lain di mana korelasi menyiratkan sebab-akibat?

Rob Hyndman
sumber
16
Korelasi dan alasan kuat yang mendasari suatu tautan menyarankan sebab-akibat sampai dibuktikan sebaliknya mungkin adalah yang terbaik yang bisa Anda dapatkan.
James
8
Bukankah Karl Popper yang mengatakan manusia tidak dapat membangun hubungan sebab akibat: teori-teori ilmiah bersifat abstrak. Mereka dapat dipalsukan dan fakta bahwa kita mengalami kesulitan dalam memalsukan sesuatu membuat kita berpikir tentang hubungan sebab-akibat ...
robin girard
3
Contoh tandingan menarik dari Jaynes: Kami memiliki hubungan deduktif "tanpa awan" menyiratkan "tanpa hujan"; namun siapa yang akan percaya bahwa "tidak ada awan" adalah penyebab fisik "tidak ada hujan"?
probabilityislogic
4
Mari kita gunakan istilah yang berbeda dari 'menyiratkan' karena dalam kamus artinya termasuk 1. Sarankan dan 2. Necessitate (!)
rolando2
Apakah contoh kembar itu masuk akal? Maksud saya kausalitas yang tersirat adalah bahwa perbedaan antara metode belajar / rezim menyebabkan perbedaan dalam nilai tes kembar. Tapi ini sampel satu, dan bahkan dengan sampel besar, yang diperlukan hanyalah satu set kembar untuk memiliki reaksi berlawanan untuk memecahkan hipotesis, gaya angsa hitam ... @probabilityislogic: apakah konsep "tidak ada awan" memiliki fisik berarti? Jika ya, maka saya tidak mengerti mengapa bagian kedua tidak dapat dipercaya.
naught101

Jawaban:

33

Korelasi tidak cukup untuk sebab-akibat. Orang dapat menyiasati contoh Wikipedia dengan membayangkan bahwa si kembar selalu berselingkuh dalam pengujian mereka dengan memiliki perangkat yang memberi mereka jawaban. Si kembar yang pergi ke taman hiburan kehilangan perangkat, karenanya kelas rendah.

Cara yang baik untuk meluruskan hal ini adalah dengan memikirkan struktur jaringan Bayesian yang mungkin menghasilkan jumlah yang diukur, seperti yang dilakukan oleh Pearl dalam bukunya, Causality . Poin dasarnya adalah mencari variabel tersembunyi. Jika ada variabel tersembunyi yang terjadi tidak bervariasi dalam sampel yang diukur, maka korelasinya tidak akan menyiratkan penyebab. Paparkan semua variabel tersembunyi dan Anda memiliki sebab-akibat.

Hbar
sumber
Saya mengalami kesulitan memahami mengapa arah panah di jaringan Bayesian yang sesuai memiliki hubungan dengan sebab akibat. Misalnya, A-> B dan B-> A mewakili arah kausalitas yang berbeda, tetapi jaringan Bayesian untuk kedua struktur itu setara
Yaroslav Bulatov
6
Mereka tidak setara dalam menghadapi intervensi.
Neil G
Jaringan Bayesian itu setara dalam arti bahwa diberikan data sampel dari salah satu dari mereka, Anda tidak dapat mengatakan yang mana itu
Yaroslav Bulatov
4
Er ... Saya tidak terbiasa dengan statistik nyata dengan tembakan panjang ... tapi bukankah "mengekspos semua variabel tersembunyi" menurut definisi tidak mungkin? Bagaimana Anda tahu ketika tidak ada lagi variabel "tersembunyi"?
Craig Walker
4
@Raig Itulah intinya; itu tidak mungkin.
Justin L.
35

Saya hanya akan menambahkan beberapa komentar tambahan tentang kausalitas yang dilihat dari perspektif epidemiologis . Sebagian besar argumen ini diambil dari Epidemiologi Psikiatri Praktis , oleh Prince et al. (2003).

Sejauh ini, sebab atau interpretasi kausalitas adalah aspek yang paling sulit dari penelitian epidemiologis. Studi kohort dan cross-sectional mungkin menyebabkan efek perancu misalnya. Mengutip S. Menard ( Penelitian Longitudinal , Sage University Paper 76, 1991), HB Asher dalam Pemodelan Kausal (Sage, 1976) pada awalnya mengusulkan serangkaian kriteria yang harus dipenuhi:

  • Fenomena atau variabel yang dimaksud harus kovari, seperti ditunjukkan misalnya oleh perbedaan antara kelompok eksperimen dan kontrol atau dengan korelasi nol antara kedua variabel.
  • Hubungan tidak boleh dikaitkan dengan variabel lain atau set variabel, yaitu, itu tidak boleh palsu, tetapi harus tetap ada bahkan ketika variabel lain dikendalikan, seperti ditunjukkan misalnya dengan pengacakan yang sukses dalam desain eksperimental (tidak ada perbedaan antara eksperimental dan kelompok kontrol sebelum perawatan) atau dengan korelasi parsial bukan nol antara dua variabel dengan variabel lain tetap konstan.
  • Penyebab yang diduga harus mendahului atau menjadi simultnaeous dengan efek yang diperkirakan dalam waktu, seperti yang ditunjukkan oleh perubahan penyebab yang terjadi selambat-lambatnya perubahan terkait dalam efek.

Sementara dua kriteria pertama dapat dengan mudah diperiksa dengan menggunakan studi cross-sectional atau waktu-dipesan, yang terakhir hanya dapat dinilai dengan data longitudinal, kecuali untuk karakteristik biologis atau genetik yang urutan temporal dapat diasumsikan tanpa data longitudinal. Tentu saja, situasinya menjadi lebih kompleks jika ada hubungan kausal non-rekursif.

Saya juga menyukai ilustrasi berikut (Bab 13, dalam referensi yang disebutkan di atas) yang merangkum pendekatan yang diumumkan oleh Hill (1965) yang mencakup 9 kriteria berbeda terkait efek sebab-akibat, sebagaimana juga dikutip oleh @James. Artikel aslinya memang berjudul "Lingkungan dan penyakit: hubungan atau sebab-akibat?" ( Versi PDF ).

Hill1965

Akhirnya, Bab 2 buku Rothman yang paling terkenal, Modern Epidemiology (1998, Lippincott Williams & Wilkins, Edisi ke-2), menawarkan diskusi yang sangat lengkap tentang sebab-akibat dan inferensi kausal, baik dari perspektif statistik dan filosofis.

Saya ingin menambahkan referensi berikut (kira-kira diambil dari kursus online dalam epidemiologi) juga sangat menarik:

Akhirnya, ulasan ini menawarkan perspektif yang lebih besar pada pemodelan kausal, kesimpulan kausal dalam statistik: Tinjauan umum (J Pearl, SS 2009 (3)).

chl
sumber
18

Di jantung pertanyaan Anda adalah pertanyaan "kapan hubungan kausal?" Itu tidak hanya perlu korelasi yang menyiratkan (atau tidak) sebab-akibat.

Buku bagus tentang topik ini disebut Mostly Harmless Econometrics oleh Johua Angrist dan Jorn-Steffen Pischke. Mereka mulai dari ideal eksperimental di mana kita dapat mengacak "perlakuan" yang sedang dipelajari dengan cara tertentu dan kemudian mereka beralih ke metode alternatif untuk menghasilkan pengacakan ini untuk menarik pengaruh sebab akibat. Ini dimulai dengan studi yang disebut percobaan alami.

Salah satu contoh pertama dari eksperimen alami yang digunakan untuk mengidentifikasi hubungan sebab akibat adalah makalah Angrist 1989 tentang "Penghasilan Seumur Hidup dan Lotre Draft Era Vietnam." Makalah ini mencoba untuk memperkirakan pengaruh dinas militer terhadap pendapatan seumur hidup. Masalah utama dengan memperkirakan efek kausal adalah bahwa tipe orang tertentu mungkin lebih mungkin untuk mendaftar, yang mungkin bias setiap pengukuran hubungan. Angrist menggunakan eksperimen alami yang dibuat oleh draft lotre Vietnam untuk secara efektif "menetapkan secara acak" perawatan "dinas militer" kepada sekelompok pria.

Jadi kapan kita memiliki hubungan sebab akibat? Dalam kondisi eksperimental. Kapan kita dekat? Di bawah eksperimen alami. Ada juga teknik lain yang membuat kita dekat dengan "kausalitas" yaitu mereka jauh lebih baik daripada hanya menggunakan kontrol statistik. Mereka termasuk diskontinuitas regresi, perbedaan-dalam-perbedaan, dll.

Graham Cookson
sumber
15

Ada juga masalah dengan kasus sebaliknya, ketika kurangnya korelasi digunakan sebagai bukti kurangnya penyebab. Masalah ini adalah nonlinier; ketika melihat korelasi orang biasanya memeriksa Pearson, yang hanya merupakan puncak gunung es.


sumber
14

Contoh Anda adalah percobaan terkontrol . Satu-satunya konteks lain yang saya tahu di mana korelasi dapat menyiratkan sebab-akibat adalah bahwa eksperimen alami .

Pada dasarnya, eksperimen alami mengambil keuntungan dari penugasan beberapa responden untuk perawatan yang terjadi secara alami di dunia nyata. Karena penugasan responden untuk kelompok perlakuan dan kontrol tidak dikendalikan oleh eksperimen, sejauh mana korelasi akan menyiratkan penyebab mungkin lebih lemah sampai batas tertentu.

Lihat tautan wiki untuk informasi yang lebih terkontrol / percobaan alami.


sumber
12

Menurut pendapat saya, Satuan Tugas Statistik APA merangkumnya dengan cukup baik

'' Menyimpulkan hubungan sebab akibat dari desain nonrandomisasi adalah perusahaan yang berisiko. Para peneliti yang menggunakan desain non-acak memiliki kewajiban ekstra untuk menjelaskan logika di balik kovariat yang dimasukkan dalam desain mereka dan untuk mengingatkan pembaca tentang hipotesis pesaing yang masuk akal yang mungkin menjelaskan hasil mereka. Bahkan dalam percobaan acak, mengaitkan efek kausal dengan salah satu aspek dari kondisi perawatan memerlukan dukungan dari eksperimen tambahan. '' - Satuan Tugas APA

Jeromy Anglim
sumber
11

Pidato Presiden Sir Austin Bradford Hill kepada Royal Society of Medicine ( Lingkungan dan Penyakit: Asosiasi atau Penyebab? ) Menjelaskan sembilan kriteria yang membantu untuk menilai apakah ada hubungan sebab akibat antara dua variabel yang berkorelasi atau terkait.

Mereka:

  1. Kekuatan asosiasi
  2. Konsistensi: "sudahkah itu diamati berulang kali oleh orang yang berbeda, di tempat, situasi dan waktu yang berbeda?"
  3. Kekhususan
  4. Temporalitas: "kereta apa dan kuda apa itu?" - penyebabnya harus mendahului efeknya
  5. Gradien biologis (kurva dosis-respons) - dengan cara apa besarnya efek bergantung pada besarnya variabel sebab (yang dicurigai)?
  6. Masuk akal - apakah ada penjelasan yang mungkin untuk penyebabnya?
  7. Koheransi - apakah sebab akibat bertentangan dengan fakta-fakta mapan lainnya?
  8. Eksperimen - apakah manipulasi eksperimental dari variabel (dicurigai) kausal mempengaruhi variabel dependen (diduga)
  9. Analogi - pernahkah kita menemukan hubungan kausal yang sama di masa lalu?
James Scott-Brown
sumber
9

Dalam contoh si kembar bukan hanya korelasi yang menunjukkan kausalitas, tetapi juga informasi terkait atau pengetahuan sebelumnya.

Misalkan saya menambahkan satu informasi lebih lanjut. Asumsikan bahwa si kembar yang rajin menghabiskan 6 jam belajar untuk ujian statistik, tetapi karena kesalahan yang disayangkan ujian itu dalam sejarah. Akankah kita masih menyimpulkan bahwa penelitian adalah penyebab dari kinerja yang unggul?

Menentukan kausalitas sama banyaknya dengan pertanyaan filosofis dengan pertanyaan ilmiah, maka kecenderungan untuk memanggil filsuf seperti David Hume dan Karl Popper ketika kausalitas dibahas.

Tidak mengherankan jika kedokteran telah memberikan kontribusi yang signifikan untuk membangun hubungan sebab akibat melalui heuristik, seperti postulat Koch untuk membangun hubungan sebab akibat antara mikroba dan penyakit. Ini telah diperluas ke "postulat molekul Koch" yang diperlukan untuk menunjukkan bahwa gen dalam patogen mengkode produk yang berkontribusi terhadap penyakit yang disebabkan oleh patogen.

Sayangnya saya tidak dapat memposting hyperlink yang seharusnya karena saya adalah pengguna baru (tidak benar) dan tidak memiliki cukup "poin reputasi". Alasan sebenarnya adalah tebakan siapa pun.

Thylacoleo
sumber
9

Korelasi saja tidak pernah menyiratkan sebab-akibat. Sesederhana itu.

Tetapi sangat jarang hanya memiliki korelasi antara dua variabel. Seringkali Anda juga tahu sesuatu tentang apa variabel-variabel itu dan sebuah teori, atau teori, yang menunjukkan mengapa mungkin ada hubungan kausal antara variabel-variabel tersebut. Jika tidak, maka kita susah-susah memeriksa korelasinya? (Namun orang-orang menambang matriks korelasi masif untuk hasil yang signifikan sering tidak memiliki teori kasual - jika tidak, mengapa repot-repot menambang. Argumen yang bertentangan adalah bahwa sering diperlukan beberapa eksplorasi untuk mendapatkan ide untuk teori kasual. Dan seterusnya dan seterusnya ...)

Tanggapan terhadap kritik umum "Ya, tapi itu hanya korelasi: itu tidak menyiratkan sebab akibat":

  1. Untuk hubungan biasa, diperlukan korelasi. Kegagalan berulang untuk menemukan korelasi akan menjadi berita buruk.
  2. Saya tidak hanya memberi Anda korelasi.
  3. Kemudian lanjutkan untuk menjelaskan mekanisme penyebab yang mungkin menjelaskan korelasi ...
AndyF
sumber
2
Contoh tandingan untuk poin Anda # 1: dalam sistem yang kacau, Anda bisa memiliki sebab-akibat tanpa korelasi yang jelas.
mkt
8

Satu kondisi yang cukup berguna untuk beberapa definisi penyebab:

Penyebab dapat diklaim ketika salah satu variabel berkorelasi dapat dikendalikan (kita dapat langsung menetapkan nilainya) dan korelasi masih ada.

Łukasz Lew
sumber
2
Mungkin juga menggunakan kata Pearl untuk "langsung menetapkan nilai [variabel]": sebuah intervensi.
Neil G
8
  1. Hampir selalu dalam uji coba acak
  2. Hampir selalu dalam penelitian observasional ketika seseorang mengukur semua peserta (hampir tidak pernah)
  3. Kadang-kadang ketika seseorang mengukur beberapa counfounders (algoritma IC * dari penemuan DAG dalam buku Pearl's Causality)
  4. Dalam model linier non-gaussian dengan dua variabel atau lebih tetapi tidak menggunakan korelasi sebagai ukuran hubungan ( LiNGAM )

Sebagian besar algoritma penemuan diimplementasikan dalam Tetrad IV

Wojtek
sumber
6

Pertanyaan terkait mungkin - dalam kondisi apa Anda dapat secara andal mengekstrak hubungan kausal dari data?

Lokakarya NIPS 2008 mencoba menjawab pertanyaan itu secara empiris. Salah satu tugas adalah untuk menyimpulkan arah kausalitas dari pengamatan pasangan variabel di mana satu variabel diketahui menyebabkan yang lain, dan metode terbaik mampu mengekstraksi arah kausal dengan benar 80% dari waktu.

Yaroslav Bulatov
sumber
3

Hampir pasti dalam percobaan yang dirancang dengan baik. (Dirancang, tentu saja, untuk memperoleh hubungan semacam itu .)

ars
sumber
3

Misalkan kita berpikir faktor A adalah penyebab fenomena B. Kemudian kita mencoba memvariasikannya untuk melihat apakah B berubah. Jika B tidak berubah dan jika kita dapat berasumsi bahwa segala sesuatu yang lain tidak berubah, bukti kuat bahwa A bukanlah penyebab B. Jika B memang berubah, kita tidak dapat menyimpulkan bahwa A adalah penyebabnya karena perubahan A mungkin menyebabkan perubahan dalam sebab yang sebenarnya C, yang membuat B berubah.


sumber
Bisakah Anda membuat variasi A?
RockScience
2

Saya perhatikan bahwa 'bukti' digunakan di sini ketika membahas paradigma empiris. Tidak ada hal seperti itu. Pertama datang hipotesis, di mana gagasan itu diajukan; kemudian datang pengujian, di bawah "kondisi terkendali" [catatan a] dan jika "cukup" kekurangan disadari , itu maju ke tahap hipotesis...Titik. Tidak ada bukti, kecuali seseorang dapat 1) mengatur setiap kejadian peristiwa tersebut [catatan b] dan tentu saja 2) menetapkan sebab-akibat. 1) tidak mungkin di alam semesta yang tak terbatas [perhatikan infinity oleh alam tidak dapat dibuktikan]. Catatan A; tidak ada percobaan yang dilakukan dalam kondisi yang sepenuhnya terkontrol dan semakin terkontrol, semakin kecil kemiripannya dengan alam semesta luar dengan garis sebab akibat yang tampaknya tak terbatas. Catatan b; Pikiran Anda, Anda harus menggambarkan kata 'acara' dengan sempurna, yang mungkin berarti bahasa yang benar-benar benar = mungkin bukan bahasa manusia. Sebagai catatan akhir, semua penyebab kemungkinan kembali ke Peristiwa Pertama. Sekarang bicara dengan semua orang dengan teori. Ya, saya telah belajar secara formal dan informal. Pada akhirnya; tidak, kedekatan tidak menyiratkan sebab akibat atau bahkan apa pun selain korelasi sementara.

Glenn Charles
sumber
1

XY

Y=bX+kamu

bXYE(b)=BXkamuE(kamu|X)=0kamu YXY

Menjadi tidak memihak adalah properti yang diinginkan dari penaksir, tetapi Anda juga ingin penaksir Anda menjadi efisien (varians rendah) dan konsisten (cenderung dalam probabilitas untuk nilai sebenarnya). Lihat asumsi Gauss-Markov.

pengguna172578
sumber