Saya mengerti bahwa korelasi bukanlah sebab-akibat . Misalkan kita mendapatkan korelasi tinggi antara dua variabel. Bagaimana Anda memeriksa apakah korelasi ini sebenarnya karena sebab akibat? Atau, dalam kondisi apa, tepatnya, dapatkah kita menggunakan data eksperimental untuk menyimpulkan hubungan sebab akibat antara dua atau lebih variabel?
correlation
mathematical-statistics
causality
Manish Barnwal
sumber
sumber
X
danY
memilih yang satu sebagai penyebab yang lain yang akan meminimalkan perasaan tanggung jawab dan memaksimalkan perasaan takdir.Jawaban:
Alasan yang sangat mungkin untuk 2 variabel yang dikorelasikan adalah bahwa perubahan mereka terkait dengan variabel ketiga. Alasan lain yang mungkin adalah kebetulan (jika Anda menguji cukup variabel yang tidak berkorelasi untuk korelasi, beberapa akan menunjukkan korelasi), atau mekanisme yang sangat kompleks yang melibatkan beberapa langkah.
Lihat http://tylervigen.com/ untuk contoh seperti ini:
Untuk dengan yakin menyatakan penyebab dari A -> B, Anda memerlukan percobaan di mana Anda dapat mengontrol variabel A dan tidak memengaruhi variabel lainnya. Kemudian Anda mengukur apakah korelasi A dan B masih ada jika Anda mengubah variabel Anda.
Untuk hampir semua aplikasi praktis, hampir tidak mungkin untuk tidak mempengaruhi variabel lain (seringkali tidak diketahui) juga, oleh karena itu yang terbaik yang dapat kita lakukan adalah membuktikan tidak adanya sebab-akibat.
Untuk dapat menyatakan hubungan sebab akibat, Anda mulai dengan hipotesis bahwa 2 variabel memiliki hubungan sebab akibat, gunakan percobaan untuk menyangkal hipotesis dan jika Anda gagal, Anda dapat menyatakan dengan tingkat kepastian bahwa hipotesis itu benar. Seberapa tinggi tingkat kepastian Anda perlu tergantung pada bidang penelitian Anda.
Di banyak bidang, umum atau perlu untuk menjalankan 2 bagian percobaan Anda secara paralel, satu di mana variabel A diubah, dan grup kontrol di mana variabel A tidak berubah, tetapi percobaan sebaliknya persis sama - misalnya dalam kasus obat Anda masih menempel subyek dengan jarum atau membuatnya menelan pil. Jika percobaan menunjukkan korelasi antara A dan B, tetapi tidak antara A dan B '(B dari kelompok kontrol), Anda dapat mengasumsikan penyebabnya.
Ada juga cara lain untuk menyimpulkan hubungan sebab akibat, jika percobaan tidak mungkin, atau tidak disarankan karena berbagai alasan (moral, etika, PR, biaya, waktu). Salah satu cara umum adalah menggunakan deduksi. Mengambil contoh dari komentar: untuk membuktikan bahwa merokok menyebabkan kanker pada manusia, kita dapat menggunakan percobaan untuk membuktikan bahwa merokok menyebabkan kanker pada tikus, kemudian membuktikan bahwa ada korelasi antara merokok dan kanker pada manusia, dan menyimpulkan bahwa oleh karena itu sangat kemungkinan bahwa merokok menyebabkan kanker pada manusia - bukti ini dapat diperkuat jika kita juga membantah bahwa kanker menyebabkan merokok. Cara lain untuk menyimpulkan hubungan sebab dan akibat adalah dengan mengesampingkan penyebab lain dari korelasi, meninggalkan hubungan sebab akibat sebagai penjelasan terbaik yang tersisa dari korelasi - metode ini tidak selalu dapat diterapkan, karena kadang-kadang mustahil untuk menghilangkan semua kemungkinan penyebab korelasi (disebut "jalur belakang" dalam jawaban lain). Dalam contoh merokok / kanker, kita mungkin bisa menggunakan pendekatan ini untuk membuktikan bahwa merokok bertanggung jawab atas tar di paru-paru, karena tidak ada banyak sumber yang memungkinkan untuk itu.
Cara-cara lain untuk "membuktikan" kausalitas ini tidak selalu ideal dari sudut pandang ilmiah, karena mereka tidak konklusif seperti percobaan yang lebih sederhana. Debat pemanasan global adalah contoh yang bagus untuk menunjukkan bagaimana jauh lebih mudah untuk mengabaikan sebab-akibat yang belum terbukti secara meyakinkan dengan percobaan berulang.
Untuk bantuan komik, berikut adalah contoh percobaan yang masuk akal secara teknis, tetapi tidak disarankan karena alasan non-ilmiah (moral, etika, PR, biaya):
sumber
Terlepas dari apakah desainnya eksperimental atau observasional, hubungan antara variabel A dan hasil Y mencerminkan hubungan sebab akibat antara A dan Y jika tidak ada jalur backdoor terbuka antara A dan Y.
Dalam desain eksperimental, ini paling mudah dicapai dengan pengacakan paparan atau tugas pengobatan. Kecuali pengacakan yang ideal, efek perawatan asosiasional adalah estimasi yang tidak memihak dari efek perlakuan kausal di bawah asumsi pertukaran (tugas pengobatan tidak tergantung pada hasil faktual), positif, positif, dll ...
Referensi
Hernan, Robins. Mutiara Inferensial Kausal
. Inferensial Kausal dalam Statistik: Tinjauan
PS Anda dapat google untuk Inferensi Kausal & nama-nama berikut (untuk memulai) untuk informasi lebih lanjut tentang topik: Judea Pearl, Donald Rubin, Miguil Hernan.
sumber
Pertimbangkan peningkatan tingkat perceraian, berkorelasi dengan peningkatan pendapatan pengacara.
Secara intuitif tampak jelas bahwa metrik-metrik ini harus dikorelasikan. Semakin banyak pasangan (permintaan) mengajukan perceraian lebih banyak, sehingga semakin banyak pengacara (persediaan) menaikkan harga mereka.
Tampaknya peningkatan tingkat perceraian menyebabkan peningkatan pendapatan pengacara, karena permintaan tambahan dari pasangan menyebabkan pengacara menaikkan harga mereka.
Atau, apakah itu mundur? Bagaimana jika pengacara secara sengaja dan independen menaikkan harga mereka, lalu membelanjakan penghasilan baru mereka untuk iklan perceraian? Itu juga sepertinya penjelasan yang masuk akal.
Skenario ini menggambarkan angka sewenang-wenang dari ketiga, variabel penjelas yang dapat ditunjukkan oleh analisis statistik. Pertimbangkan yang berikut ini:
Anda memiliki teka-teki. Anda tidak bisa mengukur setiap titik data, jika Anda ingin membenarkan mengabaikan titik data yang tidak jelas, Anda perlu mengukurnya. (Anda dapat menghilangkan beberapa titik data tanpa mengukurnya, tetapi Anda harus setidaknya membenarkannya.)
Tidak ada bukti sebab akibat yang bisa benar dalam sistem tanpa batas.
sumber
Jika A dan B berkorelasi, dan setelah Anda mengecualikan kebetulan, kemungkinan besar A menyebabkan B, atau B menyebabkan A, atau beberapa kemungkinan penyebab yang tidak diketahui X menyebabkan A dan B.
Langkah pertama adalah memeriksa mekanisme yang memungkinkan. Bisakah Anda memikirkan bagaimana A bisa huruf B, atau sebaliknya, atau apa penyebab X lainnya bisa menyebabkan keduanya? (Ini mengasumsikan bahwa pemeriksaan ini lebih murah daripada melakukan percobaan yang mencoba membuktikan penyebabnya) Mudah-mudahan Anda berakhir di posisi di mana percobaan untuk menunjukkan sebab-akibat terlihat bermanfaat. Anda dapat melanjutkan jika Anda tidak dapat memikirkan suatu mekanisme (A menyebabkan B tetapi kami tidak tahu mengapa ada kemungkinan).
Dalam percobaan itu, Anda harus dapat memanipulasi penyebab yang dicurigai sesuka hati (misalnya jika penyebabnya adalah "minum pil A" maka beberapa orang akan mendapatkan pil, yang lain tidak akan). Kemudian Anda mengambil tindakan pencegahan yang biasa, memilih orang yang mendapatkan atau tidak mendapatkan pil secara acak, dengan Anda maupun mereka yang diuji tidak mengetahui siapa yang mendapat pil dan siapa yang tidak. Anda juga mencoba untuk menjaga agar sisa percobaan tetap sama (memberikan pil A kepada orang-orang di ruangan hangat yang bagus dengan sinar matahari masuk melalui jendela sementara kelompok lain mendapat pil palsu di kamar kotor, tidak nyaman mungkin memengaruhi data Anda). Jadi jika Anda menyimpulkan bahwa satu-satunya perbedaan adalah pil itu, dan penyebab untuk mendapatkan atau tidak mendapatkan pil itu adalah keputusan acak yang tidak mempengaruhi hal lain,
sumber
Data intervensi (eksperimental) seperti yang dijelaskan oleh gnasher dan Peter adalah cara paling mudah untuk membuat kasus yang baik untuk hubungan sebab akibat. Namun, hanya jawaban Ash yang menyebutkan kemungkinan menyimpulkan hubungan sebab akibat melalui data pengamatan. Selain metode pintu belakang yang ia sebutkan, metode pintu depan adalah cara lain untuk membangun hubungan sebab akibat berdasarkan data pengamatan dan beberapa asumsi sebab akibat. Ini ditemukan oleh Mutiara Judea. Saya mencoba merangkum dan memberikan referensi untuk ini di sini .
sumber
Untuk membuat pernyataan kausal, Anda harus memiliki Random Sampling dan Random Assignment
Jadi ketika memilih perlakuan dan kelompok kontrol dari kelompok sampel di atas, jumlah yang sama dari orang dengan sifat yang sama harus berada di kedua perlakuan dan kelompok kontrol.
Kelompok perlakuan adalah kelompok di mana obat diberikan kepada orang-orang. Kelompok kontrol adalah kelompok di mana obat tidak diberikan. Anda juga dapat menentukan kelompok plasebo di mana subjek tidak diberi obat tetapi diberi tahu bahwa mereka diberikan.
Akhirnya, jika efeknya terlihat pada kelompok perlakuan tetapi tidak pada kelompok kontrol, maka kita dapat menentukan penyebabnya.
sumber