Kita semua tahu mantra "korelasi tidak menyiratkan sebab akibat" yang dimasukkan ke dalam semua siswa statistik tahun pertama. Ada beberapa contoh bagus di sini untuk menggambarkan ide tersebut.
Tetapi kadang-kadang korelasi memang menyiratkan sebab-akibat. Contoh berikut diambil dari halaman Wikipedia ini
Misalnya, seseorang dapat menjalankan percobaan pada kembar identik yang diketahui secara konsisten mendapatkan nilai yang sama pada tes mereka. Satu kembar dikirim untuk belajar selama enam jam sementara yang lain dikirim ke taman hiburan. Jika skor tes mereka tiba-tiba menyimpang sebagian besar, ini akan menjadi bukti kuat bahwa belajar (atau pergi ke taman hiburan) memiliki efek kausal pada skor tes. Dalam hal ini, korelasi antara belajar dan skor tes hampir pasti menyiratkan penyebab.
Apakah ada situasi lain di mana korelasi menyiratkan sebab-akibat?
sumber
Jawaban:
Korelasi tidak cukup untuk sebab-akibat. Orang dapat menyiasati contoh Wikipedia dengan membayangkan bahwa si kembar selalu berselingkuh dalam pengujian mereka dengan memiliki perangkat yang memberi mereka jawaban. Si kembar yang pergi ke taman hiburan kehilangan perangkat, karenanya kelas rendah.
Cara yang baik untuk meluruskan hal ini adalah dengan memikirkan struktur jaringan Bayesian yang mungkin menghasilkan jumlah yang diukur, seperti yang dilakukan oleh Pearl dalam bukunya, Causality . Poin dasarnya adalah mencari variabel tersembunyi. Jika ada variabel tersembunyi yang terjadi tidak bervariasi dalam sampel yang diukur, maka korelasinya tidak akan menyiratkan penyebab. Paparkan semua variabel tersembunyi dan Anda memiliki sebab-akibat.
sumber
Saya hanya akan menambahkan beberapa komentar tambahan tentang kausalitas yang dilihat dari perspektif epidemiologis . Sebagian besar argumen ini diambil dari Epidemiologi Psikiatri Praktis , oleh Prince et al. (2003).
Sejauh ini, sebab atau interpretasi kausalitas adalah aspek yang paling sulit dari penelitian epidemiologis. Studi kohort dan cross-sectional mungkin menyebabkan efek perancu misalnya. Mengutip S. Menard ( Penelitian Longitudinal , Sage University Paper 76, 1991), HB Asher dalam Pemodelan Kausal (Sage, 1976) pada awalnya mengusulkan serangkaian kriteria yang harus dipenuhi:
Sementara dua kriteria pertama dapat dengan mudah diperiksa dengan menggunakan studi cross-sectional atau waktu-dipesan, yang terakhir hanya dapat dinilai dengan data longitudinal, kecuali untuk karakteristik biologis atau genetik yang urutan temporal dapat diasumsikan tanpa data longitudinal. Tentu saja, situasinya menjadi lebih kompleks jika ada hubungan kausal non-rekursif.
Saya juga menyukai ilustrasi berikut (Bab 13, dalam referensi yang disebutkan di atas) yang merangkum pendekatan yang diumumkan oleh Hill (1965) yang mencakup 9 kriteria berbeda terkait efek sebab-akibat, sebagaimana juga dikutip oleh @James. Artikel aslinya memang berjudul "Lingkungan dan penyakit: hubungan atau sebab-akibat?" ( Versi PDF ).
Akhirnya, Bab 2 buku Rothman yang paling terkenal, Modern Epidemiology (1998, Lippincott Williams & Wilkins, Edisi ke-2), menawarkan diskusi yang sangat lengkap tentang sebab-akibat dan inferensi kausal, baik dari perspektif statistik dan filosofis.
Saya ingin menambahkan referensi berikut (kira-kira diambil dari kursus online dalam epidemiologi) juga sangat menarik:
Akhirnya, ulasan ini menawarkan perspektif yang lebih besar pada pemodelan kausal, kesimpulan kausal dalam statistik: Tinjauan umum (J Pearl, SS 2009 (3)).
sumber
Di jantung pertanyaan Anda adalah pertanyaan "kapan hubungan kausal?" Itu tidak hanya perlu korelasi yang menyiratkan (atau tidak) sebab-akibat.
Buku bagus tentang topik ini disebut Mostly Harmless Econometrics oleh Johua Angrist dan Jorn-Steffen Pischke. Mereka mulai dari ideal eksperimental di mana kita dapat mengacak "perlakuan" yang sedang dipelajari dengan cara tertentu dan kemudian mereka beralih ke metode alternatif untuk menghasilkan pengacakan ini untuk menarik pengaruh sebab akibat. Ini dimulai dengan studi yang disebut percobaan alami.
Salah satu contoh pertama dari eksperimen alami yang digunakan untuk mengidentifikasi hubungan sebab akibat adalah makalah Angrist 1989 tentang "Penghasilan Seumur Hidup dan Lotre Draft Era Vietnam." Makalah ini mencoba untuk memperkirakan pengaruh dinas militer terhadap pendapatan seumur hidup. Masalah utama dengan memperkirakan efek kausal adalah bahwa tipe orang tertentu mungkin lebih mungkin untuk mendaftar, yang mungkin bias setiap pengukuran hubungan. Angrist menggunakan eksperimen alami yang dibuat oleh draft lotre Vietnam untuk secara efektif "menetapkan secara acak" perawatan "dinas militer" kepada sekelompok pria.
Jadi kapan kita memiliki hubungan sebab akibat? Dalam kondisi eksperimental. Kapan kita dekat? Di bawah eksperimen alami. Ada juga teknik lain yang membuat kita dekat dengan "kausalitas" yaitu mereka jauh lebih baik daripada hanya menggunakan kontrol statistik. Mereka termasuk diskontinuitas regresi, perbedaan-dalam-perbedaan, dll.
sumber
Ada juga masalah dengan kasus sebaliknya, ketika kurangnya korelasi digunakan sebagai bukti kurangnya penyebab. Masalah ini adalah nonlinier; ketika melihat korelasi orang biasanya memeriksa Pearson, yang hanya merupakan puncak gunung es.
sumber
Contoh Anda adalah percobaan terkontrol . Satu-satunya konteks lain yang saya tahu di mana korelasi dapat menyiratkan sebab-akibat adalah bahwa eksperimen alami .
Pada dasarnya, eksperimen alami mengambil keuntungan dari penugasan beberapa responden untuk perawatan yang terjadi secara alami di dunia nyata. Karena penugasan responden untuk kelompok perlakuan dan kontrol tidak dikendalikan oleh eksperimen, sejauh mana korelasi akan menyiratkan penyebab mungkin lebih lemah sampai batas tertentu.
Lihat tautan wiki untuk informasi yang lebih terkontrol / percobaan alami.
sumber
Menurut pendapat saya, Satuan Tugas Statistik APA merangkumnya dengan cukup baik
sumber
Pidato Presiden Sir Austin Bradford Hill kepada Royal Society of Medicine ( Lingkungan dan Penyakit: Asosiasi atau Penyebab? ) Menjelaskan sembilan kriteria yang membantu untuk menilai apakah ada hubungan sebab akibat antara dua variabel yang berkorelasi atau terkait.
Mereka:
sumber
Dalam contoh si kembar bukan hanya korelasi yang menunjukkan kausalitas, tetapi juga informasi terkait atau pengetahuan sebelumnya.
Misalkan saya menambahkan satu informasi lebih lanjut. Asumsikan bahwa si kembar yang rajin menghabiskan 6 jam belajar untuk ujian statistik, tetapi karena kesalahan yang disayangkan ujian itu dalam sejarah. Akankah kita masih menyimpulkan bahwa penelitian adalah penyebab dari kinerja yang unggul?
Menentukan kausalitas sama banyaknya dengan pertanyaan filosofis dengan pertanyaan ilmiah, maka kecenderungan untuk memanggil filsuf seperti David Hume dan Karl Popper ketika kausalitas dibahas.
Tidak mengherankan jika kedokteran telah memberikan kontribusi yang signifikan untuk membangun hubungan sebab akibat melalui heuristik, seperti postulat Koch untuk membangun hubungan sebab akibat antara mikroba dan penyakit. Ini telah diperluas ke "postulat molekul Koch" yang diperlukan untuk menunjukkan bahwa gen dalam patogen mengkode produk yang berkontribusi terhadap penyakit yang disebabkan oleh patogen.
Sayangnya saya tidak dapat memposting hyperlink yang seharusnya karena saya adalah pengguna baru (tidak benar) dan tidak memiliki cukup "poin reputasi". Alasan sebenarnya adalah tebakan siapa pun.
sumber
Korelasi saja tidak pernah menyiratkan sebab-akibat. Sesederhana itu.
Tetapi sangat jarang hanya memiliki korelasi antara dua variabel. Seringkali Anda juga tahu sesuatu tentang apa variabel-variabel itu dan sebuah teori, atau teori, yang menunjukkan mengapa mungkin ada hubungan kausal antara variabel-variabel tersebut. Jika tidak, maka kita susah-susah memeriksa korelasinya? (Namun orang-orang menambang matriks korelasi masif untuk hasil yang signifikan sering tidak memiliki teori kasual - jika tidak, mengapa repot-repot menambang. Argumen yang bertentangan adalah bahwa sering diperlukan beberapa eksplorasi untuk mendapatkan ide untuk teori kasual. Dan seterusnya dan seterusnya ...)
Tanggapan terhadap kritik umum "Ya, tapi itu hanya korelasi: itu tidak menyiratkan sebab akibat":
sumber
Satu kondisi yang cukup berguna untuk beberapa definisi penyebab:
Penyebab dapat diklaim ketika salah satu variabel berkorelasi dapat dikendalikan (kita dapat langsung menetapkan nilainya) dan korelasi masih ada.
sumber
Sebagian besar algoritma penemuan diimplementasikan dalam Tetrad IV
sumber
Pertanyaan terkait mungkin - dalam kondisi apa Anda dapat secara andal mengekstrak hubungan kausal dari data?
Lokakarya NIPS 2008 mencoba menjawab pertanyaan itu secara empiris. Salah satu tugas adalah untuk menyimpulkan arah kausalitas dari pengamatan pasangan variabel di mana satu variabel diketahui menyebabkan yang lain, dan metode terbaik mampu mengekstraksi arah kausal dengan benar 80% dari waktu.
sumber
Hampir pasti dalam percobaan yang dirancang dengan baik. (Dirancang, tentu saja, untuk memperoleh hubungan semacam itu .)
sumber
Misalkan kita berpikir faktor A adalah penyebab fenomena B. Kemudian kita mencoba memvariasikannya untuk melihat apakah B berubah. Jika B tidak berubah dan jika kita dapat berasumsi bahwa segala sesuatu yang lain tidak berubah, bukti kuat bahwa A bukanlah penyebab B. Jika B memang berubah, kita tidak dapat menyimpulkan bahwa A adalah penyebabnya karena perubahan A mungkin menyebabkan perubahan dalam sebab yang sebenarnya C, yang membuat B berubah.
sumber
Saya perhatikan bahwa 'bukti' digunakan di sini ketika membahas paradigma empiris. Tidak ada hal seperti itu. Pertama datang hipotesis, di mana gagasan itu diajukan; kemudian datang pengujian, di bawah "kondisi terkendali" [catatan a] dan jika "cukup" kekurangan disadari , itu maju ke tahap hipotesis...Titik. Tidak ada bukti, kecuali seseorang dapat 1) mengatur setiap kejadian peristiwa tersebut [catatan b] dan tentu saja 2) menetapkan sebab-akibat. 1) tidak mungkin di alam semesta yang tak terbatas [perhatikan infinity oleh alam tidak dapat dibuktikan]. Catatan A; tidak ada percobaan yang dilakukan dalam kondisi yang sepenuhnya terkontrol dan semakin terkontrol, semakin kecil kemiripannya dengan alam semesta luar dengan garis sebab akibat yang tampaknya tak terbatas. Catatan b; Pikiran Anda, Anda harus menggambarkan kata 'acara' dengan sempurna, yang mungkin berarti bahasa yang benar-benar benar = mungkin bukan bahasa manusia. Sebagai catatan akhir, semua penyebab kemungkinan kembali ke Peristiwa Pertama. Sekarang bicara dengan semua orang dengan teori. Ya, saya telah belajar secara formal dan informal. Pada akhirnya; tidak, kedekatan tidak menyiratkan sebab akibat atau bahkan apa pun selain korelasi sementara.
sumber
Menjadi tidak memihak adalah properti yang diinginkan dari penaksir, tetapi Anda juga ingin penaksir Anda menjadi efisien (varians rendah) dan konsisten (cenderung dalam probabilitas untuk nilai sebenarnya). Lihat asumsi Gauss-Markov.
sumber