Jika 'korelasi tidak menyiratkan sebab-akibat', maka jika saya menemukan korelasi yang signifikan secara statistik, bagaimana saya bisa membuktikan kausalitas?

30

Saya mengerti bahwa korelasi bukanlah sebab-akibat . Misalkan kita mendapatkan korelasi tinggi antara dua variabel. Bagaimana Anda memeriksa apakah korelasi ini sebenarnya karena sebab akibat? Atau, dalam kondisi apa, tepatnya, dapatkah kita menggunakan data eksperimental untuk menyimpulkan hubungan sebab akibat antara dua atau lebih variabel?

Manish Barnwal
sumber
2
Ini akan membutuhkan data eksperimental. Tolong jelaskan desain eksperimental yang Anda rujuk.
Frank Harrell
1
Pak, saya tidak punya data percobaan. Saya ingin memahami eksperimen terkontrol seperti apa yang perlu dilakukan untuk menyimpulkan sebab-akibat?
Manish Barnwal
4
Ada banyak kemungkinan desain. Singkatnya, Anda berupaya mengendalikan semua variabel lain secara fisik dan memvariasikan satu faktor yang diminati, atau mengacak penerapan manipulasi eksperimental, yang "meratakan" efek dari semua penjelasan lain yang mungkin.
Frank Harrell
2
Singkatnya, Anda perlu variasi jenis eksogen.
abaumann
1
Antara berkorelasi Xdan Ymemilih yang satu sebagai penyebab yang lain yang akan meminimalkan perasaan tanggung jawab dan memaksimalkan perasaan takdir.
ttnphns

Jawaban:

16

Alasan yang sangat mungkin untuk 2 variabel yang dikorelasikan adalah bahwa perubahan mereka terkait dengan variabel ketiga. Alasan lain yang mungkin adalah kebetulan (jika Anda menguji cukup variabel yang tidak berkorelasi untuk korelasi, beberapa akan menunjukkan korelasi), atau mekanisme yang sangat kompleks yang melibatkan beberapa langkah.

Lihat http://tylervigen.com/ untuk contoh seperti ini:

masukkan deskripsi gambar di sini

Untuk dengan yakin menyatakan penyebab dari A -> B, Anda memerlukan percobaan di mana Anda dapat mengontrol variabel A dan tidak memengaruhi variabel lainnya. Kemudian Anda mengukur apakah korelasi A dan B masih ada jika Anda mengubah variabel Anda.

Untuk hampir semua aplikasi praktis, hampir tidak mungkin untuk tidak mempengaruhi variabel lain (seringkali tidak diketahui) juga, oleh karena itu yang terbaik yang dapat kita lakukan adalah membuktikan tidak adanya sebab-akibat.

Untuk dapat menyatakan hubungan sebab akibat, Anda mulai dengan hipotesis bahwa 2 variabel memiliki hubungan sebab akibat, gunakan percobaan untuk menyangkal hipotesis dan jika Anda gagal, Anda dapat menyatakan dengan tingkat kepastian bahwa hipotesis itu benar. Seberapa tinggi tingkat kepastian Anda perlu tergantung pada bidang penelitian Anda.

Di banyak bidang, umum atau perlu untuk menjalankan 2 bagian percobaan Anda secara paralel, satu di mana variabel A diubah, dan grup kontrol di mana variabel A tidak berubah, tetapi percobaan sebaliknya persis sama - misalnya dalam kasus obat Anda masih menempel subyek dengan jarum atau membuatnya menelan pil. Jika percobaan menunjukkan korelasi antara A dan B, tetapi tidak antara A dan B '(B dari kelompok kontrol), Anda dapat mengasumsikan penyebabnya.

Ada juga cara lain untuk menyimpulkan hubungan sebab akibat, jika percobaan tidak mungkin, atau tidak disarankan karena berbagai alasan (moral, etika, PR, biaya, waktu). Salah satu cara umum adalah menggunakan deduksi. Mengambil contoh dari komentar: untuk membuktikan bahwa merokok menyebabkan kanker pada manusia, kita dapat menggunakan percobaan untuk membuktikan bahwa merokok menyebabkan kanker pada tikus, kemudian membuktikan bahwa ada korelasi antara merokok dan kanker pada manusia, dan menyimpulkan bahwa oleh karena itu sangat kemungkinan bahwa merokok menyebabkan kanker pada manusia - bukti ini dapat diperkuat jika kita juga membantah bahwa kanker menyebabkan merokok. Cara lain untuk menyimpulkan hubungan sebab dan akibat adalah dengan mengesampingkan penyebab lain dari korelasi, meninggalkan hubungan sebab akibat sebagai penjelasan terbaik yang tersisa dari korelasi - metode ini tidak selalu dapat diterapkan, karena kadang-kadang mustahil untuk menghilangkan semua kemungkinan penyebab korelasi (disebut "jalur belakang" dalam jawaban lain). Dalam contoh merokok / kanker, kita mungkin bisa menggunakan pendekatan ini untuk membuktikan bahwa merokok bertanggung jawab atas tar di paru-paru, karena tidak ada banyak sumber yang memungkinkan untuk itu.

Cara-cara lain untuk "membuktikan" kausalitas ini tidak selalu ideal dari sudut pandang ilmiah, karena mereka tidak konklusif seperti percobaan yang lebih sederhana. Debat pemanasan global adalah contoh yang bagus untuk menunjukkan bagaimana jauh lebih mudah untuk mengabaikan sebab-akibat yang belum terbukti secara meyakinkan dengan percobaan berulang.

Untuk bantuan komik, berikut adalah contoh percobaan yang masuk akal secara teknis, tetapi tidak disarankan karena alasan non-ilmiah (moral, etika, PR, biaya):

Gambar diambil dari phroyd.tumblr.com

Peter
sumber
3
Ini adalah kondisi yang terlalu kuat. Dalam epidemiologi, persyaratannya tidak terlalu ketat karena mengendalikan eksperimen paling tidak praktis, dan paling buruk tidak etis - "apakah merokok menyebabkan kanker"
user295691
2
Contoh yang diberikan Pearl untuk menunjukkan bahwa merokok menyebabkan kanker pada manusia adalah metode pintu depan di mana tar dilihat sebagai variabel perantara antara merokok dan kanker. Saya tidak tahu apa yang Anda maksud dengan "tidak ideal". Jelas lebih ideal daripada memaksa orang untuk merokok dan melihat apakah mereka terkena kanker!
Neil G
1
@ Neil "Jelas lebih ideal daripada memaksa orang untuk merokok dan melihat apakah mereka terkena kanker" - Jika tujuannya adalah untuk membuktikan hubungan sebab akibat, saya sangat tidak setuju. Di sisi lain, jika tujuannya adalah untuk menghindari masalah etika, berkurangnya dana, atau kerumunan orang mati, maka itu lebih ideal, ya.
Peter
10

Terlepas dari apakah desainnya eksperimental atau observasional, hubungan antara variabel A dan hasil Y mencerminkan hubungan sebab akibat antara A dan Y jika tidak ada jalur backdoor terbuka antara A dan Y.

Dalam desain eksperimental, ini paling mudah dicapai dengan pengacakan paparan atau tugas pengobatan. Kecuali pengacakan yang ideal, efek perawatan asosiasional adalah estimasi yang tidak memihak dari efek perlakuan kausal di bawah asumsi pertukaran (tugas pengobatan tidak tergantung pada hasil faktual), positif, positif, dll ...

Referensi

Hernan, Robins. Mutiara Inferensial Kausal
. Inferensial Kausal dalam Statistik: Tinjauan

PS Anda dapat google untuk Inferensi Kausal & nama-nama berikut (untuk memulai) untuk informasi lebih lanjut tentang topik: Judea Pearl, Donald Rubin, Miguil Hernan.

Abu
sumber
Lihat di sini: en.wikipedia.org/wiki/Correlation_does_not_imply_causation Saya bertentangan dengan pernyataan Ash: Terlepas dari apakah desain itu eksperimental atau observasional, hubungan antara variabel A dan hasil Y mencerminkan hubungan sebab akibat antara A dan Y jika ada tidak ada jalur backdoor terbuka antara A dan Y. Misalnya penjualan es krim, Y kematian di kolam renang; berkorelasi, tetapi penyebab bagi mereka untuk naik atau turun adalah suhu. Mungkin Ash berarti dengan jalur backdoor terbuka keduanya tergantung pada variabel ketiga, tetapi kemudian formulasinya sangat tidak jelas.
Karl
Jalur pintu belakang dalam contoh Anda adalah musim. Jalur backdoor berarti variabel ketiga.
Neil G
Bagi mereka yang tidak terbiasa dengan kontribusi Judea Pearl untuk studi kausalitas, mungkin bermanfaat untuk membaca biografinya dari situs web Association for Computing Machinery, yang memberinya penghargaan Turing Award 2011. Pearl membahas perlunya memasukkan lebih banyak diskusi tentang inferensi kausal dalam kurikulum pendidikan statistik dalam sebuah wawancara dengan Amstat News .
jthetzel
Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
gung - Reinstate Monica
3

Pertimbangkan peningkatan tingkat perceraian, berkorelasi dengan peningkatan pendapatan pengacara.

Secara intuitif tampak jelas bahwa metrik-metrik ini harus dikorelasikan. Semakin banyak pasangan (permintaan) mengajukan perceraian lebih banyak, sehingga semakin banyak pengacara (persediaan) menaikkan harga mereka.

Tampaknya peningkatan tingkat perceraian menyebabkan peningkatan pendapatan pengacara, karena permintaan tambahan dari pasangan menyebabkan pengacara menaikkan harga mereka.

Atau, apakah itu mundur? Bagaimana jika pengacara secara sengaja dan independen menaikkan harga mereka, lalu membelanjakan penghasilan baru mereka untuk iklan perceraian? Itu juga sepertinya penjelasan yang masuk akal.

Skenario ini menggambarkan angka sewenang-wenang dari ketiga, variabel penjelas yang dapat ditunjukkan oleh analisis statistik. Pertimbangkan yang berikut ini:

  1. Anda tidak bisa mengukur setiap titik data,
  2. Anda ingin menghilangkan setiap titik data yang tidak jelas,
  3. Anda hanya bisa membenarkan mengapa menghilangkan titik data jika Anda mengukurnya.

Anda memiliki teka-teki. Anda tidak bisa mengukur setiap titik data, jika Anda ingin membenarkan mengabaikan titik data yang tidak jelas, Anda perlu mengukurnya. (Anda dapat menghilangkan beberapa titik data tanpa mengukurnya, tetapi Anda harus setidaknya membenarkannya.)

Tidak ada bukti sebab akibat yang bisa benar dalam sistem tanpa batas.

Miles Richardson
sumber
2

Jika A dan B berkorelasi, dan setelah Anda mengecualikan kebetulan, kemungkinan besar A menyebabkan B, atau B menyebabkan A, atau beberapa kemungkinan penyebab yang tidak diketahui X menyebabkan A dan B.

Langkah pertama adalah memeriksa mekanisme yang memungkinkan. Bisakah Anda memikirkan bagaimana A bisa huruf B, atau sebaliknya, atau apa penyebab X lainnya bisa menyebabkan keduanya? (Ini mengasumsikan bahwa pemeriksaan ini lebih murah daripada melakukan percobaan yang mencoba membuktikan penyebabnya) Mudah-mudahan Anda berakhir di posisi di mana percobaan untuk menunjukkan sebab-akibat terlihat bermanfaat. Anda dapat melanjutkan jika Anda tidak dapat memikirkan suatu mekanisme (A menyebabkan B tetapi kami tidak tahu mengapa ada kemungkinan).

Dalam percobaan itu, Anda harus dapat memanipulasi penyebab yang dicurigai sesuka hati (misalnya jika penyebabnya adalah "minum pil A" maka beberapa orang akan mendapatkan pil, yang lain tidak akan). Kemudian Anda mengambil tindakan pencegahan yang biasa, memilih orang yang mendapatkan atau tidak mendapatkan pil secara acak, dengan Anda maupun mereka yang diuji tidak mengetahui siapa yang mendapat pil dan siapa yang tidak. Anda juga mencoba untuk menjaga agar sisa percobaan tetap sama (memberikan pil A kepada orang-orang di ruangan hangat yang bagus dengan sinar matahari masuk melalui jendela sementara kelompok lain mendapat pil palsu di kamar kotor, tidak nyaman mungkin memengaruhi data Anda). Jadi jika Anda menyimpulkan bahwa satu-satunya perbedaan adalah pil itu, dan penyebab untuk mendapatkan atau tidak mendapatkan pil itu adalah keputusan acak yang tidak mempengaruhi hal lain,

gnasher729
sumber
2

Data intervensi (eksperimental) seperti yang dijelaskan oleh gnasher dan Peter adalah cara paling mudah untuk membuat kasus yang baik untuk hubungan sebab akibat. Namun, hanya jawaban Ash yang menyebutkan kemungkinan menyimpulkan hubungan sebab akibat melalui data pengamatan. Selain metode pintu belakang yang ia sebutkan, metode pintu depan adalah cara lain untuk membangun hubungan sebab akibat berdasarkan data pengamatan dan beberapa asumsi sebab akibat. Ini ditemukan oleh Mutiara Judea. Saya mencoba merangkum dan memberikan referensi untuk ini di sini .

Neil G
sumber
0

Untuk membuat pernyataan kausal, Anda harus memiliki Random Sampling dan Random Assignment

  • Pengambilan Sampel Acak: setiap individu memiliki probabilitas yang sama untuk dipilih untuk penelitian ini
  • Tugas Acak: setiap individu dalam percobaan menunjukkan sifat yang sedikit berbeda.

Jadi ketika memilih perlakuan dan kelompok kontrol dari kelompok sampel di atas, jumlah yang sama dari orang dengan sifat yang sama harus berada di kedua perlakuan dan kelompok kontrol.

Kelompok perlakuan adalah kelompok di mana obat diberikan kepada orang-orang. Kelompok kontrol adalah kelompok di mana obat tidak diberikan. Anda juga dapat menentukan kelompok plasebo di mana subjek tidak diberi obat tetapi diberi tahu bahwa mereka diberikan.

Akhirnya, jika efeknya terlihat pada kelompok perlakuan tetapi tidak pada kelompok kontrol, maka kita dapat menentukan penyebabnya.

show_stopper
sumber
Menurut pendapat saya, kelompok plasebo mutlak diperlukan. Selain itu, orang yang bertanggung jawab untuk menangani subjek tes tidak boleh tahu siapa yang berada dalam kelompok mana ("buta ganda"). Apa pun yang kurang saya anggap pasti tidak bisa diandalkan. Pengujian tidak mudah.
mafu
Uji coba placebo Terkontrol Acak lebih otentik daripada uji coba Terkontrol Acak, namun pernyataan kausal dapat dibuat menggunakan uji coba Terkontrol Acak
show_stopper
2
"Untuk membuat pernyataan sebab akibat, Anda harus memiliki Pengambilan Sampel Acak dan Penugasan Acak" - ini tidak benar. Lihat metode pintu depan dan pintu belakang.
Neil G