Korelasi tidak menyiratkan sebab-akibat, karena mungkin ada banyak penjelasan untuk korelasi. Tetapi apakah sebab akibat menyiratkan korelasi? Secara intuitif, saya akan berpikir bahwa kehadiran sebab-akibat berarti ada beberapa korelasi. Tetapi intuisi saya tidak selalu membantu saya dengan baik dalam statistik. Apakah sebab akibat menyiratkan korelasi?
correlation
causality
Matius
sumber
sumber
Jawaban:
Seperti yang telah dinyatakan oleh banyak jawaban di atas, penyebab tidak menyiratkan korelasi linier . Karena banyak konsep korelasi berasal dari bidang yang sangat bergantung pada statistik linier, biasanya korelasi dipandang sama dengan korelasi linier. The Artikel wikipedia merupakan sumber baik-baik saja untuk ini, saya benar-benar seperti gambar ini:
Lihatlah beberapa angka di baris bawah, misalnya bentuk parabola-ish pada contoh ke-4. Inilah yang terjadi pada jawaban @StasK (dengan sedikit noise ditambahkan). Y dapat sepenuhnya disebabkan oleh X tetapi jika hubungan numerik tidak linier dan simetris, Anda masih akan memiliki korelasi 0.
Kata yang Anda cari adalah informasi timbal balik : ini adalah semacam versi umum korelasi non-linear. Dalam hal itu, pernyataan Anda akan benar: sebab-akibat menyiratkan informasi timbal balik yang tinggi .
sumber
Jawaban ketatnya adalah "tidak, sebab-akibat tidak selalu menyiratkan korelasi".
Pertimbangkan dan . Penyebab tidak mendapatkan kuat: menentukan . Namun, korelasi antara dan adalah 0. Bukti: Momen (gabungan) dari variabel-variabel ini adalah: ; ; menggunakan properti dari distribusi normal standar yang momen ganjilnya semua sama dengan nol (dapat dengan mudah diturunkan dari fungsi penghasil momennya, katakanlah). Karenanya, korelasinya sama dengan nol.X∼N(0,1) Y=X2∼χ21 X Y X Y E[X]=0 E[Y]=E[X2]=1
Untuk mengatasi beberapa komentar: satu-satunya alasan argumen ini bekerja adalah karena distribusi berpusat pada nol, dan simetris di sekitar 0. Bahkan, distribusi lain dengan properti ini yang akan memiliki jumlah momen yang cukup akan bekerja di tempat , misalnya, seragam pada atau Laplace . Argumen yang terlalu disederhanakan adalah bahwa untuk setiap nilai positif , ada kemungkinan nilai negatif yang sama besarnya, sehingga ketika Anda mengkuadratkan , Anda tidak dapat mengatakan bahwa nilai yang lebih besar dikaitkan dengan nilai yang lebih besar atau lebih kecil dariX N(0,1) (−10,10) ∼exp(−|x|) X X X X Y . Namun, jika Anda mengambil katakan , maka , , , dan . Ini masuk akal: untuk setiap nilai bawah nol, ada nilai yang jauh lebih besar dari yang di atas nol, sehingga nilai yang lebih besar dikaitkan dengan nilai lebih besar . (Yang terakhir memiliki distribusi non-sentral ; Anda dapat menarik varians dari halaman Wikipedia dan menghitung korelasinya jika Anda tertarik.)X∼N(3,1) E[X]=3 E[Y]=E[X2]=10 E[X3]=36 X - XCov[X,Y]=E[XY]−E[X]E[Y]=36−30=6≠0 X −X Y χ 2X Y χ2
sumber
Intinya ya.
Korelasi tidak menyiratkan sebab akibat karena mungkin ada penjelasan lain untuk korelasi di luar sebab. Tetapi agar A menjadi penyebab B, mereka harus dikaitkan dengan beberapa cara . Artinya ada korelasi di antara mereka - meskipun korelasi itu tidak harus linear.
Seperti yang disarankan beberapa komentator, mungkin lebih tepat menggunakan istilah seperti 'ketergantungan' atau 'asosiasi' daripada korelasi. Meskipun seperti yang saya sebutkan di komentar, saya telah melihat "korelasi tidak berarti sebab-akibat" dalam menanggapi analisis yang jauh melampaui korelasi linier sederhana, dan untuk tujuan mengatakan, pada dasarnya saya telah memperluas "korelasi" ke setiap hubungan antara A dan B.
sumber
Menambahkan ke jawaban @EpiGrad. Saya pikir, bagi banyak orang, "korelasi" akan menyiratkan "korelasi linear". Dan konsep korelasi nonlinier mungkin tidak intuitif.
Jadi, saya akan mengatakan "tidak mereka tidak harus dikorelasikan tetapi mereka harus terkait ". Kami menyetujui substansi, tetapi tidak setuju tentang cara terbaik untuk menyampaikan substansi.
Salah satu contoh penyebab seperti itu (setidaknya orang berpikir itu penyebabnya) adalah antara kemungkinan menjawab telepon dan penghasilan Anda. Diketahui bahwa orang-orang di kedua ujung spektrum pendapatan cenderung menjawab telepon mereka daripada orang-orang di tengah. Diperkirakan bahwa pola sebab akibat berbeda untuk orang miskin (mis. Hindari penagih tagihan) dan kaya (mis. Hindari orang yang meminta sumbangan).
sumber
Pertimbangkan model sebab-akibat berikut:
Sekarang mari kita:
Jadi singkatnya saya akan mengatakan bahwa: (i) kausalitas menunjukkan ketergantungan; tetapi, (ii) ketergantungannya adalah ketergantungan fungsional / struktural dan mungkin atau mungkin tidak diterjemahkan dalam ketergantungan statistik spesifik yang Anda pikirkan.
sumber
Penyebab dan efeknya akan dikorelasikan kecuali tidak ada variasi sama sekali dalam insiden dan besarnya penyebab dan tidak ada variasi sama sekali dalam kekuatan penyebabnya. Satu-satunya kemungkinan lain akan jika penyebabnya adalah sempurna berkorelasi dengan variabel kausal lain dengan persis efek sebaliknya. Pada dasarnya, ini adalah kondisi percobaan-pikiran. Di dunia nyata, sebab-akibat akan menyiratkan ketergantungan dalam beberapa bentuk (meskipun itu mungkin bukan korelasi linear ).
sumber
Ada jawaban bagus di sini. Artem Kaznatcheev , Fomite dan Peter Flom menunjukkan bahwa sebab-akibat biasanya lebih menyiratkan ketergantungan daripada korelasi linear. Carlos Cinelli memberikan contoh di mana tidak ada ketergantungan, karena bagaimana fungsi pembangkit diatur.
Saya ingin menambahkan poin tentang bagaimana ketergantungan ini dapat menghilang dalam praktik, dalam jenis dataset yang mungkin bisa Anda gunakan. Situasi seperti contoh Carlos tidak terbatas pada "kondisi eksperimen pikiran" belaka.
Ketergantungan menghilang dalam proses mengatur diri sendiri . Homeostasis, misalnya, memastikan bahwa suhu tubuh internal Anda tetap independen dari suhu ruangan. Panas eksternal memengaruhi suhu tubuh Anda secara langsung, tetapi juga memengaruhi sistem pendingin tubuh (misalnya berkeringat) yang menjaga suhu tubuh stabil. Jika kita sampel suhu dalam interval yang sangat cepat dan menggunakan pengukuran yang sangat tepat, kita memiliki kesempatan untuk mengamati ketergantungan kausal, tetapi pada tingkat pengambilan sampel normal, suhu tubuh dan suhu eksternal tampak independen.
Proses yang mengatur diri sendiri adalah umum dalam sistem biologis; mereka dihasilkan oleh evolusi. Mamalia yang gagal mengatur suhu tubuhnya dihilangkan oleh seleksi alam. Para peneliti yang bekerja dengan data biologis harus menyadari bahwa ketergantungan kausal dapat menghilang dalam dataset mereka.
sumber
Bukankah suatu sebab tanpa korelasi apa pun akan menjadi suatu rng?
Kecuali, seperti tersirat dari jawaban yang diterima, Anda menggunakan interpretasi yang sangat terbatas dari kata 'korelasi', itu adalah pertanyaan konyol - jika satu hal 'menyebabkan' yang lain, itu secara definisi dipengaruhi olehnya dalam beberapa cara, apakah itu merupakan peningkatan populasi, atau hanya intensitas.
Baik?
Kemudian lagi, Anda bisa mendiskusikan sesuatu yang lebih seperti, visibilitas sesuatu yang dipengaruhi oleh sesuatu yang lain, yang saya kira akan terlihat seperti sebab-akibat, tetapi sebenarnya Anda tidak mengukur apa yang Anda pikir Anda ukur ...
Jadi ya, saya kira jawaban singkatnya adalah, "Ya, selama Anda tidak dapat membuat entropi."
sumber