Pepatah hewan peliharaan dari banyak ahli statistik adalah "Korelasi tidak menyiratkan sebab-akibat." Ini memang benar, tetapi satu hal yang TIDAK TERLIHAT di sini adalah bahwa korelasi memiliki sedikit atau tidak ada nilai. Apakah ini benar? Apakah tidak berguna memiliki pengetahuan bahwa dua variabel berkorelasi?
Saya tidak bisa membayangkan itu masalahnya. Saya tidak terlalu akrab dengan analisis prediktif, tetapi tampaknya jika X
merupakan prediktor Y
, akan berguna dalam memprediksi nilai-nilai masa depan Y
berdasarkan X
, terlepas dari kausalitas.
Apakah saya salah dalam melihat nilai dalam korelasi? Dan jika tidak, dalam situasi apa mungkin seorang ahli statistik atau ilmuwan data menggunakan korelasi tanpa sebab-akibat?
correlation
predictive-models
causality
Indigenuity
sumber
sumber
Jawaban:
Korelasi (atau ukuran asosiasi lainnya) berguna untuk prediksi terlepas dari penyebabnya. Misalkan Anda mengukur hubungan yang jelas dan stabil antara dua variabel. Artinya, mengetahui tingkat satu variabel juga memberi Anda beberapa informasi tentang variabel lain yang menarik, yang dapat Anda gunakan untuk membantu memprediksi satu variabel sebagai fungsi variabel lain dan, yang paling penting, mengambil tindakan berdasarkan prediksi tersebut. . Mengambil tindakan melibatkan perubahan satu atau lebih variabel, seperti ketika membuat rekomendasi otomatis atau menggunakan beberapa intervensi medis. Tentu saja, Anda bisa membuat prediksi yang lebih baik dan bertindak lebih efektif jika Anda memiliki lebih banyak wawasan tentang hubungan langsung atau tidak langsung antara dua variabel. Wawasan ini mungkin melibatkan variabel lain, termasuk yang spasial dan temporal.
sumber
A
adalah prediktor yang sangat baik, sangat menggoda untuk mengklaim bahwa ini juga penyebab penyakit - Dan seperti yang disebutkan dalam komentar, sangat mudah untuk sampai pada kesimpulan yang salah. Jika kita hanya ingin membuat prediksi, misalnya memberi tahu apakah pasien memiliki penyakit atau tidak, tidak ada masalah dengan korelasi.Ada banyak poin bagus di sini. Biarkan saya membongkar klaim Anda bahwa "tampaknya jika
X
merupakan prediktorY
, akan berguna dalam memprediksi nilai-nilai masa depanY
berdasarkanX
, terlepas dari kausalitas" sedikit. Anda benar: Jika semua yang Anda inginkan adalah dapat memprediksiY
nilai yang tidak diketahui dari nilai yang diketahuiX
dan hubungan stabil yang diketahui, status kausal dari hubungan itu tidak relevan. Pertimbangkan itu:sumber
Mereka tidak buang air besar tentang pentingnya korelasi. Hanya saja kecenderungannya adalah menafsirkan korelasi sebagai sebab akibat.
Ambil ASI sebagai contoh sempurna. Ibu hampir selalu menginterpretasikan temuan (studi observasional) tentang menyusui sebagai saran apakah mereka benar-benar harus menyusui. Memang benar bahwa, rata-rata, bayi yang disusui cenderung menjadi orang dewasa yang lebih sehat dalam urutan usia bahkan setelah mengendalikan usia ibu dan ayah longitudinal, status sosial ekonomi, dll. Ini tidak menyiratkan bahwa menyusui sendiri bertanggung jawab atas perbedaan, meskipun mungkin sebagian memainkan peran dalam pengembangan awal regulasi nafsu makan. Hubungannya sangat kompleks dan orang dapat dengan mudah berspekulasi pada seluruh faktor mediasi yang dapat mendasari perbedaan yang diamati.
Banyak penelitian mencari asosiasi untuk menjamin pemahaman yang lebih dalam tentang apa yang terjadi. Korelasi tidak sia-sia, itu hanya beberapa langkah di bawah sebab-akibat dan orang perlu berhati-hati tentang cara melaporkan temuan untuk mencegah salah tafsir dari para pakar.
sumber
Anda benar bahwa korelasi berguna. Alasan mengapa model sebab-akibat lebih baik daripada model asosiasional adalah bahwa - seperti yang dikatakan Pearl - mereka adalah ramalan untuk intervensi. Dengan kata lain, mereka memungkinkan Anda untuk bernalar secara hipotesis. Sebuah model sebab-akibat menjawab pertanyaan "jika saya membuat X terjadi, apa yang akan terjadi pada Y?"
Tetapi Anda tidak selalu perlu bernalar secara hipotesis. Jika model Anda hanya akan digunakan untuk menjawab pertanyaan-pertanyaan seperti "jika saya mengamati X, apa yang saya tahu tentang Y?", Maka model asosiasi adalah semua yang Anda butuhkan.
sumber
Anda benar bahwa korelasi berguna untuk prediksi. Ini juga berguna untuk mendapatkan pemahaman yang lebih baik tentang sistem yang diteliti.
Satu kasus di mana pengetahuan tentang mekanisme sebab-akibat diperlukan adalah jika distribusi target telah dimanipulasi (misalnya beberapa variabel telah "dipaksa" untuk mengambil nilai-nilai tertentu). Sebuah model berdasarkan korelasi hanya akan berkinerja buruk, sedangkan model yang menggunakan informasi sebab-akibat harus berkinerja lebih baik.
sumber
Korelasi adalah alat yang berguna jika Anda memiliki model dasar yang menjelaskan hubungan sebab akibat.
Sebagai contoh jika Anda tahu bahwa menerapkan gaya pada objek memengaruhi pergerakannya, Anda dapat mengukur korelasi antara gaya dan kecepatan serta gaya dan akselerasi. Korelasi yang lebih kuat (dengan akselerasi) akan jelas dengan sendirinya.
Dalam studi observasional, korelasi dapat mengungkapkan pola umum tertentu (seperti yang dinyatakan menyusui dan kesehatan kemudian) yang mungkin memberikan dasar untuk eksplorasi ilmiah lebih lanjut melalui desain eksperimental yang tepat yang dapat mengkonfirmasi atau menolak kausalitas (misalnya mungkin bukan menyusui yang menjadi penyebabnya). konsekuensi untuk kerangka budaya tertentu).
Jadi, korelasi bisa bermanfaat, tetapi jarang bisa konklusif.
sumber
Seperti yang Anda nyatakan, korelasi saja memiliki banyak kegunaan, terutama prediksi.
Sebagai contoh, semua penelitian ini menunjukkan bahwa penggunaan kopi yang berat pada warga lanjut usia berkorelasi dengan sistem kardiovaskular yang lebih sehat, dalam pikiran saya, tidak diragukan lagi termotivasi oleh orang-orang yang ingin membenarkan kebiasaan minum kopi yang berat. Namun, mengatakan minum kopi hanya berkorelasi dengan hati yang lebih sehat, dan bukan kausal, tidak menjawab pertanyaan yang menarik: apakah kita akan menjadi lebih sehat jika kita minum lebih banyak kopi atau jika kita mengurangi? Sangat frustasi untuk menemukan hasil yang sangat menarik (Kopi terkait dengan hati yang lebih sehat!) Tetapi tidak dapat menggunakan informasi itu untuk membuat keputusan (masih tidak tahu apakah Anda harus minum kopi untuk menjadi lebih sehat), dan hampir selalu ada godaan untuk menafsirkan korelasi sebagai penyebab.
Kecuali mungkin yang Anda pedulikan hanyalah judi (yaitu Anda ingin memprediksi tetapi tidak mempengaruhi).
sumber
Ada nilai dalam korelasi, tetapi orang harus melihat lebih banyak bukti untuk menyimpulkan sebab akibat.
Bertahun-tahun lalu, ada penelitian yang menghasilkan "kopi menyebabkan kanker." Segera setelah saya mendengar ini di berita, saya memberi tahu istri saya "korelasi yang salah." Ternyata saya benar. Populasi kopi 2-3 cangkir per hari memiliki tingkat merokok lebih tinggi daripada peminum non-kopi. Setelah pengumpul data menemukan ini, mereka menarik hasilnya.
Studi lain yang menarik sebelum booming dan bust perumahan menunjukkan rasisme ketika datang untuk memproses hipotek. Klaimnya adalah bahwa pelamar kulit hitam ditolak pada tingkat yang lebih tinggi daripada kulit putih. Tetapi penelitian lain melihat pada tingkat standar. Pemilik rumah hitam default pada tingkat yang sama sebagai putih. Jika aplikasi hitam ditahan dengan standar yang lebih tinggi, tingkat standar mereka sebenarnya akan jauh lebih rendah. Catatan: anekdot ini dibagikan oleh penulis Thomas Sowell dalam bukunya The Housing Boom and Bust
Penambangan data dapat dengan mudah menghasilkan dua set data yang menunjukkan korelasi tinggi, tetapi untuk peristiwa yang tidak mungkin terkait. Pada akhirnya, yang terbaik adalah melihat studi yang dikirim dengan mata kritis. Menemukan korelasi yang salah tidak selalu mudah, ini merupakan bakat yang didapat.
sumber
Korelasi adalah fenomena yang bisa diamati. Anda bisa mengukurnya. Anda dapat bertindak berdasarkan pengukuran tersebut. Sendiri, ini bisa bermanfaat.
Namun, jika semua yang Anda miliki adalah korelasi, Anda tidak memiliki jaminan bahwa perubahan yang Anda lakukan akan benar - benar berpengaruh (lihat grafik terkenal yang mengaitkan kenaikan iPhone ke perbudakan di luar negeri dan semacamnya). Itu hanya menunjukkan bahwa ada korelasi di sana, dan jika Anda mengubah lingkungan (dengan bertindak), korelasi itu mungkin masih ada.
Namun, ini adalah pendekatan yang sangat halus. Dalam banyak skenario kami ingin memiliki alat yang kurang halus: kausalitas. Kausalitas adalah korelasi yang digabungkan dengan klaim bahwa jika Anda mengubah lingkungan Anda dengan bertindak dengan satu atau lain cara, orang seharusnya mengharapkan korelasinya tetap ada di sana. Ini memungkinkan perencanaan jangka panjang, seperti rantai 20 atau 50 peristiwa sebab akibat secara berurutan untuk mengidentifikasi hasil yang bermanfaat. Melakukannya dengan 20 atau 50 korelasi sering meninggalkan hasil yang sangat kabur dan tidak jelas.
Sebagai contoh bagaimana mereka telah berguna di masa lalu, pertimbangkan ilmu pengetahuan barat vs. Pengobatan Tradisional Cina (TCM). Ilmu pengetahuan Barat terutama berfokus pada "Mengembangkan teori, mengisolasi tes yang dapat menunjukkan teori, menjalankan tes dan mendokumentasikan hasil." Ini dimulai dengan "mengembangkan teori," yang sangat terkait dengan kausalitas. TCM memutarnya, dimulai dengan "menyusun tes yang dapat memberikan hasil yang bermanfaat, menjalankan tes, mengidentifikasi korelasi dalam jawabannya." Fokusnya lebih pada korelasi.
Saat ini orang Barat cenderung lebih suka berpikir hampir seluruhnya dalam hal kausalitas, sehingga nilai mempelajari korelasi lebih sulit untuk dimata-matai. Namun, kami menemukannya bersembunyi di setiap sudut kehidupan kami. Dan jangan pernah lupa bahwa bahkan dalam sains barat, korelasi adalah alat penting untuk mengidentifikasi teori mana yang perlu ditelusuri!
sumber