Apakah sebab akibat menyiratkan korelasi?

118

Korelasi tidak menyiratkan sebab-akibat, karena mungkin ada banyak penjelasan untuk korelasi. Tetapi apakah sebab akibat menyiratkan korelasi? Secara intuitif, saya akan berpikir bahwa kehadiran sebab-akibat berarti ada beberapa korelasi. Tetapi intuisi saya tidak selalu membantu saya dengan baik dalam statistik. Apakah sebab akibat menyiratkan korelasi?

Matius
sumber
5
Masalahnya adalah, jika Anda mencari "menyiratkan" dalam kamus Anda akan melihat "menyarankan" dan "keharusan."
rolando2
6
Korelasi tidak menyiratkan sebab-akibat, tetapi itu mengibaskan alisnya secara sugestif dan memberi isyarat diam-diam sambil mengucapkan 'lihat ke sana'. xkcd.com/552
jchristie
1
Pertanyaan itu sendiri sepertinya tidak mencari jawaban spesifik dan faktual, seperti yang ditunjukkan oleh penggunaan kata tersebut secara tidak langsung. Referensi di atas seperti ultimate mungkin. Atau lebih seperti yang mungkin tetapi saya tidak bisa membuktikannya.
jchristie

Jawaban:

96

Seperti yang telah dinyatakan oleh banyak jawaban di atas, penyebab tidak menyiratkan korelasi linier . Karena banyak konsep korelasi berasal dari bidang yang sangat bergantung pada statistik linier, biasanya korelasi dipandang sama dengan korelasi linier. The Artikel wikipedia merupakan sumber baik-baik saja untuk ini, saya benar-benar seperti gambar ini:

Contoh korelasi

Lihatlah beberapa angka di baris bawah, misalnya bentuk parabola-ish pada contoh ke-4. Inilah yang terjadi pada jawaban @StasK (dengan sedikit noise ditambahkan). Y dapat sepenuhnya disebabkan oleh X tetapi jika hubungan numerik tidak linier dan simetris, Anda masih akan memiliki korelasi 0.

Kata yang Anda cari adalah informasi timbal balik : ini adalah semacam versi umum korelasi non-linear. Dalam hal itu, pernyataan Anda akan benar: sebab-akibat menyiratkan informasi timbal balik yang tinggi .

Artem Kaznatcheev
sumber
3
Biasanya tetapi tidak selalu benar bahwa informasi timbal balik yang tinggi menyertai sebab-akibat. Lihat jawaban @ gung di mana "jika penyebabnya benar-benar berkorelasi dengan variabel kausal lain dengan efek sebaliknya."
Neil G
5
Argumen dua sebab dengan efek berlawanan yang selalu membatalkan satu sama lain tidak masuk akal bagi saya sebagai penyebab . Saya selalu dapat berasumsi ada unicorn yang menyebabkan sesuatu, dan Gremlin membatalkan upaya mereka dengan sempurna; Saya menghindari ini karena ini konyol. Tapi mungkin saya salah paham maksud Anda.
Artem Kaznatcheev
11
Teladannya lebih ekstrem dari yang seharusnya. Mungkin bagi Anda untuk memiliki variabel Boolean , dan sehingga dan adalah penyebab , dan (mod 2). Kemudian, tidak adanya pengetahuan tentang , dan tidak memiliki informasi timbal balik. adalah perancu yang belum ditemukan - apa yang Anda sebut "gremlins" meskipun itu adalah sesuatu yang sangat umum. C A B C C = A + B B A C BA,BCABCC=A+BBACB
Neil G
2
@NielG Saya setuju dengan kalimat pertama Anda, tetapi bukan yang kedua. Hanya karena A & B menyebabkan C, tidak berarti bahwa A menyebabkan C dan B menyebabkan C. Saya tidak melihat mengapa penyebab harus bersifat distributif di atas &.
Artem Kaznatcheev
4
Alasan mengapa A adalah penyebab dari C adalah karena mengubah A akan tetap berubah C. Jadi, C bergantung pada A bahkan ketika kita tidak mengamati B.
Neil G
41

Jawaban ketatnya adalah "tidak, sebab-akibat tidak selalu menyiratkan korelasi".

Pertimbangkan dan . Penyebab tidak mendapatkan kuat: menentukan . Namun, korelasi antara dan adalah 0. Bukti: Momen (gabungan) dari variabel-variabel ini adalah: ; ; menggunakan properti dari distribusi normal standar yang momen ganjilnya semua sama dengan nol (dapat dengan mudah diturunkan dari fungsi penghasil momennya, katakanlah). Karenanya, korelasinya sama dengan nol.XN(0,1)Y=X2χ12XYXYE[X]=0E[Y]=E[X2]=1

Cov[X,Y]=E[(X0)(Y1)]=E[XY]E[X]1=E[X3]E[X]=0

Untuk mengatasi beberapa komentar: satu-satunya alasan argumen ini bekerja adalah karena distribusi berpusat pada nol, dan simetris di sekitar 0. Bahkan, distribusi lain dengan properti ini yang akan memiliki jumlah momen yang cukup akan bekerja di tempat , misalnya, seragam pada atau Laplace . Argumen yang terlalu disederhanakan adalah bahwa untuk setiap nilai positif , ada kemungkinan nilai negatif yang sama besarnya, sehingga ketika Anda mengkuadratkan , Anda tidak dapat mengatakan bahwa nilai yang lebih besar dikaitkan dengan nilai yang lebih besar atau lebih kecil dariXN(0,1)(10,10)exp(|x|)XXXXY. Namun, jika Anda mengambil katakan , maka , , , dan . Ini masuk akal: untuk setiap nilai bawah nol, ada nilai yang jauh lebih besar dari yang di atas nol, sehingga nilai yang lebih besar dikaitkan dengan nilai lebih besar . (Yang terakhir memiliki distribusi non-sentral ; Anda dapat menarik varians dari halaman Wikipedia dan menghitung korelasinya jika Anda tertarik.)XN(3,1)E[X]=3E[Y]=E[X2]=10E[X3]=36X - XCov[X,Y]=E[XY]E[X]E[Y]=3630=60XXY χ 2XYχ2

Tugas
sumber
2
@DQdlM: Variabel acak standar telah menghilang momen sentral yang aneh , karena kerataan kepadatan. Matius: Jawabannya adalah tidak, seperti yang ditunjukkan oleh StasK, karena korelasi bukan satu-satunya jenis ketergantungan.
Emre
3
XN(3,1)
3
PS Saya senang Anda memposting jawaban ini. Sulit dipercaya bahwa pertanyaan itu berlangsung begitu lama tanpa jawaban ini. Ini adalah contoh tepat yang muncul di benak saya ketika saya melihat pertanyaan ini, tetapi tidak punya waktu untuk menuliskannya. Aku senang kau tidak meluangkan waktu. Tepuk tangan.
kardinal
3
@ cardinal: ya, saya kira kita semua mempelajari contoh tandingan sederhana ini di sekolah pascasarjana ... dan ya, dari derivasi kovarians, Anda hanya perlu momen pertama dan ketiga menjadi nol. Jika Anda memiliki contoh non-sepele dari distribusi asimetris yang memiliki momen nol ketiga (massa probabilitas yang disetel lebih dari lima atau enam poin tidak masuk hitungan), saya akan sangat ingin melihatnya.
Tugas
3
XYY = f ( X )fY=f(X)
31

Intinya ya.

Korelasi tidak menyiratkan sebab akibat karena mungkin ada penjelasan lain untuk korelasi di luar sebab. Tetapi agar A menjadi penyebab B, mereka harus dikaitkan dengan beberapa cara . Artinya ada korelasi di antara mereka - meskipun korelasi itu tidak harus linear.

Seperti yang disarankan beberapa komentator, mungkin lebih tepat menggunakan istilah seperti 'ketergantungan' atau 'asosiasi' daripada korelasi. Meskipun seperti yang saya sebutkan di komentar, saya telah melihat "korelasi tidak berarti sebab-akibat" dalam menanggapi analisis yang jauh melampaui korelasi linier sederhana, dan untuk tujuan mengatakan, pada dasarnya saya telah memperluas "korelasi" ke setiap hubungan antara A dan B.

Fomite
sumber
16
Saya cenderung memesan kata korelasi untuk korelasi linier , dan menggunakan ketergantungan untuk hubungan non-linear yang mungkin atau mungkin tidak memiliki korelasi linier.
Memming
4
@Memming saya juga akan, kecuali fakta bahwa orang-orang berlari "Korelasi tidak menyiratkan sebab-akibat" re: asosiasi non-linear yang cukup kompleks.
Fomite
Memming itu benar. Anda perlu mendefinisikan korelasi jika Anda tidak bermaksud korelasi Pearson.
Neil G
1
@ NeilG Atau dalam hal ini, satu mungkin bisa mendapatkan korelasi Pearson linier dengan mengubah satu variabel atau yang lain. Masalahnya adalah pepatah itu sendiri terlalu disederhanakan.
Fomite
1
@EpiGrad: Keduanya poin bagus. Dalam bahasa umum, korelasi hanya lebih dari A bertepatan dengan lebih banyak B. Saya pikir jawaban Anda akan mendapat manfaat dari membuat Anda menggunakan definisi korelasi yang luas menjadi jelas.
Neil G
23

Menambahkan ke jawaban @EpiGrad. Saya pikir, bagi banyak orang, "korelasi" akan menyiratkan "korelasi linear". Dan konsep korelasi nonlinier mungkin tidak intuitif.

Jadi, saya akan mengatakan "tidak mereka tidak harus dikorelasikan tetapi mereka harus terkait ". Kami menyetujui substansi, tetapi tidak setuju tentang cara terbaik untuk menyampaikan substansi.

Salah satu contoh penyebab seperti itu (setidaknya orang berpikir itu penyebabnya) adalah antara kemungkinan menjawab telepon dan penghasilan Anda. Diketahui bahwa orang-orang di kedua ujung spektrum pendapatan cenderung menjawab telepon mereka daripada orang-orang di tengah. Diperkirakan bahwa pola sebab akibat berbeda untuk orang miskin (mis. Hindari penagih tagihan) dan kaya (mis. Hindari orang yang meminta sumbangan).

Peter Flom
sumber
21

XY

Pertimbangkan model sebab-akibat berikut:

XYU

XUY

Sekarang mari kita:

Xbernoulli(0.5)Ubernoulli(0.5)Y=1XU+2XU

UP(Y|X)=P(Y)XYYX

XUYXUXYUY {X,U}YXYXYXYXYU

Jadi singkatnya saya akan mengatakan bahwa: (i) kausalitas menunjukkan ketergantungan; tetapi, (ii) ketergantungannya adalah ketergantungan fungsional / struktural dan mungkin atau mungkin tidak diterjemahkan dalam ketergantungan statistik spesifik yang Anda pikirkan.

Carlos Cinelli
sumber
Carlos, apakah benar mengatakan bahwa jika kita mengetahui set variabel penuh yang terlibat dalam model kausal masalah ini (statistik tidak terlihat) menghilang?
markowitz
@markowitz Anda harus mengamati semuanya hingga ke tingkat deterministik, sehingga bukan skenario yang sangat realistis.
Carlos Cinelli
Saya menafsirkan jawaban Anda sebagai "ya". Anda benar, situasi yang saya kira tidak realistis; Saya sadar akan hal itu. Namun pertanyaannya hanya terkait dengan logika yang Anda uraikan dan akhirnya adalah untuk memahami itu. Keyakinan saya adalah sesuatu seperti "sebab akibat menyiratkan asosiasi statistik" dan jawaban orang lain di halaman ini terdengar seperti ini. Lagi pula contoh Anda agak tidak realistis tetapi tidak karena alasan ini tidak menarik. Sepertinya saya bahwa, juga secara umum, sebab-sebab tanpa hubungan statistik sedikit tidak realistis tetapi secara teori menarik.
markowitz
1
@markowitz, "tembus statistik" terjadi ketika model tidak setia pada grafik. Untuk pembatalan tepat, ini tergantung pada pilihan parameterisasi tertentu, sehingga beberapa orang berpendapat itu memang tidak mungkin. Namun, pembatalan dekat mungkin masuk akal karena tergantung pada lingkungan parameter, jadi semuanya tergantung pada konteks. Intinya di sini adalah hanya bahwa Anda perlu membuat asumsi sebab akibat Anda eksplisit karena, secara logis, sebab akibat tidak menyiratkan asosiasi dengan sendirinya - Anda memerlukan asumsi tambahan.
Carlos Cinelli
13

Penyebab dan efeknya akan dikorelasikan kecuali tidak ada variasi sama sekali dalam insiden dan besarnya penyebab dan tidak ada variasi sama sekali dalam kekuatan penyebabnya. Satu-satunya kemungkinan lain akan jika penyebabnya adalah sempurna berkorelasi dengan variabel kausal lain dengan persis efek sebaliknya. Pada dasarnya, ini adalah kondisi percobaan-pikiran. Di dunia nyata, sebab-akibat akan menyiratkan ketergantungan dalam beberapa bentuk (meskipun itu mungkin bukan korelasi linear ).

gung
sumber
3
@ NeilG, saya menuruti kecanduan saya pada huruf miring .
gung
1
Beberapa teori sebenarnya menyiratkan hal ini, misalnya banyak model teori permainan. Beberapa situasi empiris di mana Anda tidak dapat membedakan perbedaan (walaupun sebenarnya akan ada satu 'di gung-italics' seperti :-) termasuk 'netral' tidak ada skenario perubahan gen ketika tekanan seleksi evolusi menekan pada dua tingkat titik di arah yang berbeda.
conjugateprior
1
Saya suka pengecualian pertama, tapi bukan pengecualian kedua. Saya suka berpikir bahwa membalik saklar menyebabkan lampu menyala, tetapi jika saya hanya membalik saklar selama pemadaman tidak ada yang terjadi. Mungkin sebenarnya tidak ada hubungan sebab akibat.
emory
1
@ naught101, Anda mendapatkan poin yang bagus, yang telah dibahas di bagian lain halaman ini. Saya telah mengedit jawaban saya. Namun, ketika saya telah bekerja dengan orang-orang, saya tidak berpikir mereka memiliki konsepsi korelasi yang kuat sebagai linier, meskipun saya mengatakan itu kepada mereka. Meskipun mereka tidak memasukkannya ke dalam istilah-istilah ini, saya pikir kebanyakan orang memahami 'korelasi' lebih dekat dengan 'fungsi'. Meskipun demikian, saya harus lebih jelas dalam penggunaan istilah, dan seharusnya sudah dari awal.
gung
2
@emory: penyebab cahaya yang menyala sebenarnya adalah penutupan sirkuit listrik (yang disebabkan oleh menjentikkan sakelar, dengan kondisi lingkungan termasuk kisi-kisi yang berfungsi). Selama pemadaman listrik, menjentikkan saklar tidak menutup sirkuit, karena itu rusak di tempat lain. Jadi dalam arti tertentu, blackout adalah efek "berlawanan" yang dibicarakan gung (mis. Lampu menyala, blackout mematikannya). Bisa juga dianggap sebagai efek pembatalan.
naught101
2

Ada jawaban bagus di sini. Artem Kaznatcheev , Fomite dan Peter Flom menunjukkan bahwa sebab-akibat biasanya lebih menyiratkan ketergantungan daripada korelasi linear. Carlos Cinelli memberikan contoh di mana tidak ada ketergantungan, karena bagaimana fungsi pembangkit diatur.

Saya ingin menambahkan poin tentang bagaimana ketergantungan ini dapat menghilang dalam praktik, dalam jenis dataset yang mungkin bisa Anda gunakan. Situasi seperti contoh Carlos tidak terbatas pada "kondisi eksperimen pikiran" belaka.

Ketergantungan menghilang dalam proses mengatur diri sendiri . Homeostasis, misalnya, memastikan bahwa suhu tubuh internal Anda tetap independen dari suhu ruangan. Panas eksternal memengaruhi suhu tubuh Anda secara langsung, tetapi juga memengaruhi sistem pendingin tubuh (misalnya berkeringat) yang menjaga suhu tubuh stabil. Jika kita sampel suhu dalam interval yang sangat cepat dan menggunakan pengukuran yang sangat tepat, kita memiliki kesempatan untuk mengamati ketergantungan kausal, tetapi pada tingkat pengambilan sampel normal, suhu tubuh dan suhu eksternal tampak independen.

Proses yang mengatur diri sendiri adalah umum dalam sistem biologis; mereka dihasilkan oleh evolusi. Mamalia yang gagal mengatur suhu tubuhnya dihilangkan oleh seleksi alam. Para peneliti yang bekerja dengan data biologis harus menyadari bahwa ketergantungan kausal dapat menghilang dalam dataset mereka.

Lizzie Silver
sumber
-3

Bukankah suatu sebab tanpa korelasi apa pun akan menjadi suatu rng?

Kecuali, seperti tersirat dari jawaban yang diterima, Anda menggunakan interpretasi yang sangat terbatas dari kata 'korelasi', itu adalah pertanyaan konyol - jika satu hal 'menyebabkan' yang lain, itu secara definisi dipengaruhi olehnya dalam beberapa cara, apakah itu merupakan peningkatan populasi, atau hanya intensitas.

Baik?

Kemudian lagi, Anda bisa mendiskusikan sesuatu yang lebih seperti, visibilitas sesuatu yang dipengaruhi oleh sesuatu yang lain, yang saya kira akan terlihat seperti sebab-akibat, tetapi sebenarnya Anda tidak mengukur apa yang Anda pikir Anda ukur ...

Jadi ya, saya kira jawaban singkatnya adalah, "Ya, selama Anda tidak dapat membuat entropi."

pengguna3363155
sumber