Saya baru saja mengikuti ujian di mana kami disajikan dengan dua variabel. Dalam permainan diktator di mana seorang diktator diberikan 100 USD, dan dapat memilih berapa banyak untuk dikirim atau disimpan untuk dirinya sendiri, ada korelasi positif antara usia dan berapa banyak uang yang diputuskan untuk disimpan oleh para peserta.
Pemikiran saya adalah bahwa Anda tidak dapat menyimpulkan sebab akibat dari ini karena Anda tidak dapat menyimpulkan sebab akibat dari korelasi. Teman sekelas saya berpikir bahwa Anda dapat melakukannya karena jika Anda, misalnya, membagi peserta menjadi tiga kelompok yang terpisah, Anda dapat melihat perbedaan mereka dalam jumlah yang mereka simpan dan berapa yang mereka bagikan, dan karena itu menyimpulkan bahwa usia membuat mereka lebih banyak. Siapa yang benar dan mengapa?
sumber
Jawaban:
Secara umum Anda tidak boleh berasumsi bahwa korelasi menyiratkan kausalitas - bahkan dalam kasus di mana tampaknya itulah satu-satunya alasan yang mungkin.
Pertimbangkan bahwa ada hal-hal lain yang berkorelasi dengan usia - aspek generasi budaya misalnya. Mungkin ketiga kelompok ini akan tetap sama meskipun usianya bertambah, tetapi generasi berikutnya akan melawan tren?
Semua yang dikatakan, Anda mungkin benar bahwa orang-orang muda lebih cenderung untuk mempertahankan jumlah yang lebih besar, tetapi hanya perlu diketahui ada kemungkinan lain.
sumber
Saya dapat mendalilkan beberapa kausalitas dari data Anda.
Usia diukur dan kemudian jumlah uang disimpan. Peserta yang lebih tua lebih suka menyimpan lebih banyak uang (mungkin mereka lebih pintar atau kurang idealis, tapi bukan itu intinya).
Jumlah uang yang disimpan diukur dan kemudian usia. Orang yang menyimpan lebih banyak uang menghabiskan lebih banyak waktu untuk menghitungnya dan karenanya lebih tua ketika usia diukur.
Orang sakit menyimpan lebih banyak uang karena mereka membutuhkan uang untuk pengobatan atau perawatan (mungkin menyelamatkan jiwa). Korelasi yang sebenarnya adalah antara penyakit dan uang yang disimpan, tetapi variabel ini "tersembunyi" dan oleh karena itu kami melompat ke kesimpulan yang salah, karena usia dan kemungkinan penyakit berkorelasi dalam kelompok demografi orang yang dipilih untuk percobaan.
(Menghilangkan 143 teori; Saya harus membuat ini cukup singkat)
Kesimpulan: Anda benar, tetapi teman sekelas Anda mungkin mengklaim 147 kali lebih benar.
Korelasi terkenal lainnya adalah antara IQ rendah dan jam TV yang ditonton setiap hari. Apakah menonton TV membuat orang bodoh, atau apakah orang bodoh menonton lebih banyak TV? Bahkan bisa jadi keduanya.
sumber
Menyimpulkan penyebab dari korelasi pada umumnya bermasalah karena mungkin ada sejumlah alasan lain untuk korelasi. Misalnya, korelasi palsu karena perancu , bias seleksi (misalnya, hanya memilih peserta dengan pendapatan di bawah ambang tertentu), atau efek kausal mungkin hanya pergi ke arah lain (misalnya, termometer berkorelasi dengan suhu tetapi tentu saja tidak menyebabkan Itu). Dalam setiap kasus ini, prosedur teman sekelas Anda mungkin menemukan efek sebab-akibat di mana tidak ada.
Namun, jika peserta dipilih secara acak, kami dapat mengesampingkan faktor pembaur dan bias seleksi. Dalam hal itu, baik usia harus menyebabkan uang disimpan atau uang disimpan harus menyebabkan usia . Yang terakhir akan menyiratkan bahwa memaksa seseorang untuk menyimpan sejumlah uang akan mengubah usia mereka. Jadi kita dapat dengan aman berasumsi bahwa usia menyebabkan uang disimpan .
Perhatikan bahwa efek kausal bisa berupa "langsung" atau "tidak langsung" . Orang-orang dari usia yang berbeda akan menerima pendidikan yang berbeda, memiliki jumlah kekayaan yang berbeda, dll., Dan untuk alasan ini mungkin memilih untuk mempertahankan jumlah $ 100 yang berbeda. Efek kausal melalui mediator ini masih merupakan efek kausal tetapi tidak langsung.
sumber
Korelasi adalah konsep matematika; kausalitas adalah ide filosofis.
Di sisi lain, korelasi palsu adalah sebagian besar teknis (Anda tidak akan menemukannya di buku teks probabilitas ukuran-teoritis) konsep yang dapat didefinisikan dengan cara yang kebanyakan ditindaklanjuti.
Gagasan ini terkait erat dengan gagasan pemalsuan dalam sains - di mana tujuannya adalah untuk tidak pernah membuktikan sesuatu, hanya untuk membantahnya .
Statistik untuk matematika seperti kedokteran untuk biologi. Anda diminta membuat penilaian terbaik dengan dukungan banyak pengetahuan teknis, tetapi pengetahuan ini tidak pernah cukup untuk mencakup seluruh dunia. Jadi jika Anda akan membuat penilaian sebagai ahli statistik dan menyajikannya kepada orang lain, Anda perlu mengikuti standar kualitas tertentu yang terpenuhi; yaitu bahwa Anda memberikan saran yang baik, memberi mereka nilai uang mereka. Ini juga berarti mempertimbangkan asimetri risiko - dalam pengujian medis, biaya untuk memberikan hasil negatif palsu (yang dapat mencegah orang mendapatkan pengobatan dini) mungkin lebih tinggi daripada biaya memberikan positif palsu (yang menyebabkan kesulitan) .
Dalam praktiknya standar-standar ini akan bervariasi dari satu bidang ke bidang lainnya - kadang-kadang RCT triple-blind, kadang-kadang variabel instrumental dan teknik lain untuk mengontrol penyebab terbalik dan penyebab umum tersembunyi, kadang-kadang itu kausalitas Granger - bahwa sesuatu di masa lalu secara konsisten berkorelasi dengan sesuatu yang lain di hadapan, tetapi tidak dalam arah sebaliknya. Bahkan mungkin peraturan ketat dan validasi silang.
sumber
Hubungan antara korelasi dan sebab-akibat telah membingungkan para filsuf dan ahli statistik selama berabad-abad. Akhirnya, lebih dari dua puluh tahun terakhir, para ilmuwan komputer mengklaim telah menyelesaikan semuanya. Ini sepertinya tidak banyak diketahui. Untungnya Judea Pearl, penggerak utama di bidang ini, baru-baru ini menerbitkan sebuah buku yang menjelaskan karya ini untuk audiens populer: The Book of Why.
https://www.amazon.com/Book-Why-Science-Cause-Effect/dp/046509760X
https://bigthink.com/errors-we-live-by/judea-pearls-the-book-of-why-brings-news-of-a-new-science-of-causes
Peringatan spoiler: Anda dapat menyimpulkan sebab akibat dari korelasi dalam beberapa keadaan jika Anda tahu apa yang Anda lakukan. Anda perlu membuat beberapa asumsi kausal untuk memulainya (model sebab-akibat, idealnya didasarkan pada sains). Dan Anda membutuhkan alat untuk melakukan penalaran kontrafaktual (Aljabar). Maaf saya tidak dapat menyaring ini sampai beberapa baris (saya sendiri masih membaca buku), tapi saya pikir jawaban untuk pertanyaan Anda ada di sana.
sumber
Klaim kausal untuk usia tidak pantas dalam kasus ini
Masalah dengan mengklaim kausalitas dalam desain pertanyaan ujian Anda dapat diringkas menjadi satu fakta sederhana: penuaan bukanlah pengobatan, usia tidak dimanipulasi sama sekali. Alasan utama untuk melakukan penelitian terkontrol justru karena, karena manipulasi dan kontrol atas variabel yang diminati, Anda dapat mengatakan bahwa perubahan dalam satu variabel menyebabkan perubahan dalam hasil (di bawah kondisi eksperimental yang sangat spesifik dan dengan muatan kapal). dari asumsi lain seperti penugasan acak dan bahwa pelaku eksperimen tidak mengacaukan sesuatu dalam detail eksekusi, yang saya sembunyikan di sini).
Tetapi bukan itu yang dideskripsikan oleh desain ujian - ini hanya memiliki dua kelompok peserta, dengan satu fakta khusus yang membedakan mereka diketahui (usia mereka); tetapi Anda tidak memiliki cara untuk mengetahui cara-cara lain yang berbeda dari kelompok tersebut. Karena kurangnya kontrol, Anda tidak bisa tahu apakah perbedaan usia yang menyebabkan perubahan hasil, atau apakah itu karena alasan 40 tahun bergabung dengan studi adalah karena mereka membutuhkan uang sementara 20 tahun berusia siswa yang berpartisipasi untuk kredit kelas dan karena itu memiliki motivasi yang berbeda - atau salah satu dari seribu perbedaan alami yang mungkin ada dalam kelompok Anda.
Sekarang, terminologi teknis untuk hal-hal semacam ini bervariasi berdasarkan bidang. Istilah umum untuk hal-hal seperti usia peserta dan jenis kelamin adalah "atribut peserta", "variabel asing", "variabel independen atribut", dll. Pada akhirnya Anda berakhir dengan sesuatu yang bukan "eksperimen sejati" atau "eksperimen terkontrol sejati", karena hal yang ingin Anda klaim - seperti usia - tidak benar-benar dalam kendali Anda untuk berubah, jadi yang paling Anda harapkan tanpa metode yang jauh lebih maju (seperti inferensial kausal, kondisi tambahan, data longitudinal, dll.) adalah untuk mengklaim ada korelasi.
Ini juga merupakan salah satu alasan mengapa eksperimen dalam ilmu sosial, dan memahami atribut orang yang sulit dikendalikan, sangat rumit dalam praktiknya - orang berbeda dalam banyak hal, dan ketika Anda tidak dapat mengubah hal-hal yang Anda inginkan untuk mempelajari, Anda cenderung membutuhkan teknik eksperimental dan inferensial yang lebih kompleks atau strategi yang berbeda sama sekali.
Bagaimana Anda bisa mengubah desain untuk membuat klaim kausal?
Bayangkan skenario hipotetis seperti ini: Grup A dan B keduanya terdiri dari peserta yang berusia 20 tahun.
Anda memiliki Grup A yang memainkan permainan kediktatoran seperti biasa.
Untuk Grup B, Anda mengambil Ilmu Penuaan Sakti Magical (atau mungkin dengan memiliki Ghost memperlakukan mereka dengan wajah mengerikan ), yang Anda hati-hati menyetel untuk menua semua peserta di Grup B sehingga mereka sekarang berusia 40 tahun, tetapi jika tidak membiarkan mereka tidak berubah, dan kemudian minta mereka memainkan permainan diktator seperti yang dilakukan Grup A.
Untuk ketelitian ekstra, Anda bisa mendapatkan Kelompok C yang berusia 40 tahun secara alami untuk mengonfirmasi penuaan sintetik sebanding dengan penuaan alami, tetapi mari kita sederhanakan dan katakan bahwa kita tahu bahwa penuaan buatan sama seperti yang asli berdasarkan pada "sebelumnya kerja".
Sekarang, jika Grup B menyimpan lebih banyak uang daripada Grup A, Anda dapat mengklaim bahwa percobaan menunjukkan bahwa penuaan menyebabkan orang menyimpan lebih banyak uang. Tentu saja masih ada sekitar seribu alasan mengapa klaim Anda ternyata salah, tetapi percobaan Anda setidaknya memiliki interpretasi kausal yang valid.
sumber
Tidak. Ada hubungan logis satu arah antara kausalitas dan korelasi.
Pertimbangkan korelasi properti yang Anda hitung pada beberapa data, misalnya korelasi (linier) paling umum seperti yang didefinisikan oleh Pearson. Untuk definisi korelasi khusus ini Anda dapat membuat titik data acak yang akan memiliki korelasi nol atau satu tanpa memiliki hubungan sebab akibat di antara mereka, hanya dengan memiliki (a) simetri tertentu. Untuk definisi korelasi apa pun, Anda dapat membuat resep yang akan menunjukkan kedua perilaku: nilai korelasi tinggi tanpa hubungan matematis di antara dan nilai korelasi rendah, bahkan jika ada ekspresi tetap.
Ya, hubungan dari "tidak terkait, tetapi sangat berkorelasi" lebih lemah dari "tidak ada korelasi meskipun terkait". Tetapi satu-satunya indikator (!) Yang Anda miliki jika ada korelasi adalah Anda harus mencari lebih keras untuk penjelasannya.
sumber
Umumnya Anda tidak dapat melompat dari korelasi ke sebab-akibat. Misalnya, ada fenomena ilmu sosial yang terkenal tentang status sosial / kelas, dan kecenderungan untuk menghabiskan / menabung. Selama bertahun - tahun diyakini bahwa ini menunjukkan sebab akibat. Tahun lalu, penelitian yang lebih intensif menunjukkan hal itu.
Klasik "korelasi bukan sebab-akibat" - dalam hal ini, faktor yang membingungkan adalah bahwa tumbuh dalam kemiskinan mengajarkan orang untuk menggunakan uang secara berbeda, dan membelanjakan jika ada surplus, karena mungkin tidak ada di sana besok meskipun disimpan karena berbagai alasan .
Dalam contoh Anda, anggaplah orang yang lebih tua semua hidup melalui perang, yang tidak dilakukan oleh orang yang lebih muda. Kaitannya mungkin adalah orang-orang yang tumbuh dalam kekacauan sosial, dengan risiko nyata bahaya dan kehilangan nyawa, belajar untuk memprioritaskan penghematan sumber daya untuk diri mereka sendiri dan terhadap kebutuhan, lebih dari mereka yang tumbuh dalam keadaan lebih bahagia di mana negara, pengusaha, atau asuransi kesehatan akan membereskannya, dan kelangsungan hidup bukanlah masalah yang membentuk pandangan mereka. Maka Anda akan mendapatkan tautan nyata yang sama - orang yang lebih tua (termasuk mereka yang lebih dekat dengan generasi mereka) menyimpan lebih banyak, tetapi tampaknya hanya akan dikaitkan dengan usia. Pada kenyataannya, unsur penyebabnya adalah situasi sosial yang dihabiskan seseorang selama bertahun-tahun, dan kebiasaan apa yang diajarkan - bukan usia semata .
sumber
Ada beberapa alasan mengapa kesimpulan ini tidak masuk akal.
Perbaikan yang disarankan untuk desain adalah studi tipe cross-over berikut.
Pengaturan yang sama: lalim acak dari segala usia yang memerintah tanah. Desain: Pilih pasangan yang cocok dari para diktator muda dan tua. Beri mereka pundi-pundi uang, periksalah proporsi-perbedaan yang ditahan (tua - muda =hal1 ). Curi uang itu kembali sehingga negara dan penguasa pada dasarnya memiliki aset yang sama seperti sebelumnya. Tempatkan mereka dari takhta masing-masing dan pasang di tanah yang lain. Ulangi pemberian pot, periksa proporsi-perbedaan yang dipotong (tua - muda =hal2 ).
sumber
Kausalitas dan korelasi adalah berbagai kategori hal. Itu sebabnya korelasi saja tidak cukup untuk menyimpulkan kausalitas.
Misalnya, kausalitas adalah terarah , sedangkan korelasinya tidak terarah . Ketika menyimpulkan kausalitas, Anda perlu menetapkan apa yang menjadi sebab dan apa akibatnya.
Ada hal-hal lain yang mungkin mengganggu inferensi Anda. Variabel tersembunyi atau ketiga dan semua pertanyaan statistik (pemilihan sampel, ukuran sampel, dll.)
Tetapi dengan asumsi bahwa statistik Anda dilakukan dengan benar, korelasi dapat memberikan petunjuk tentang hubungan sebab akibat. Biasanya, jika Anda menemukan korelasi, itu berarti ada semacam kausalitas di suatu tempat dan Anda harus mulai mencarinya.
Anda benar-benar dapat memulai dengan hipotesis yang berasal dari korelasi Anda. Tapi sebuah hipotesis bukanlah kausalitas, itu hanya kemungkinan kausalitas. Anda kemudian perlu mengujinya. Jika hipotesis Anda menolak upaya pemalsuan yang cukup, Anda mungkin tertarik pada sesuatu.
Misalnya, dalam hipotesis ketamakan-penyebab-keserakahan Anda, salah satu hipotesis alternatif adalah bahwa itu bukan usia, tetapi lama menjadi diktator. Jadi Anda akan mencari diktator lama, tetapi baru-baru ini diberdayakan sebagai kelompok kontrol, dan diktator muda-tetapi-sejak-masa kanak-kanak sebagai yang kedua dan memeriksa hasilnya di sana.
sumber
Terima kasih kepada @AdamO karena menawarkan banyak diskusi dan poin pendapat untuk posting ini. Saya mencoba menawarkan pandangan fisik tentang kausalitas, yang mungkin asing bagi pembaca statistik rata-rata.
Anda benar dari sudut pandang ilmu fisika. Dalam bentuk yang paling sederhana, kemungkinan pandangan fisik yang independen terhadap waktu dari kausalitas adalah pada dasar pandangan deduktif-nomologis (DN) dari penjelasan ilmiah, mempertimbangkan suatu peristiwa yang harus dijelaskan jika dapat dimasukkan dalam hukum ilmiah. Dalam pandangan DN, keadaan fisik dianggap dijelaskan jika, menerapkan hukum (deterministik), itu dapat diturunkan dari kondisi awal yang diberikan. (Kondisi awal seperti itu dapat mencakup momen dan jarak satu sama lain dari bintang-bintang biner pada saat tertentu.) 'Penjelasan oleh determinisme' semacam itu kadang-kadang disebut sebagai determinisme kausal.
Semakin sedikit lebih lengkap tentang ini, orang akan memasukkan model induktif-statistik Hempel untuk membentuk penjelasan ilmiah , yang tautannya menawarkan diskusi kausalitas yang lebih lengkap.
Adapun masalah yang dihadapi, usia dapat dikaitkan dengan pengalaman, tetapi hubungannya tidak sederhana, apalagi, fungsi otak pada usia yang berbeda berbeda (demarkasi waktu melebar dengan usia). Pengalaman sebagai pengubah perilaku cukup bervariasi, dan hanya karena kohort dalam pengertian teritorial dan temporal tertentu mungkin memiliki pengalaman historis yang serupa tidak menyiratkan bahwa perilaku yang dihasilkan dari pengalaman tersebut dapat diekstrapolasi ke kohort lain tanpa takut kontradiksi. Sehubungan dengan uji coba terkontrol, kesamaan pengalaman adalah variabel yang tidak terkontrol yang memperkenalkan jumlah korelasi palsu yang tidak diketahui dan belum dieksplorasi ke dalam perbandingan biner sehingga perbedaan apa pun yang ditemukan tidak boleh dianggap sebagai mengungkap kemungkinan hubungan sebab akibat. Selain itu, kemungkinan penyebabnya, ketika ditemukan, hanya akan menimbulkan kecurigaan dan bukan sesuatu yang bisa dinyatakan dengan keyakinan; yang terbaik adalah hipotesis kerja, bukan kesimpulan terbaik. Keyakinan tentang kausalitas seharusnya hanya diambil dari tubuh bukti yang cukup inklusif untuk keyakinan tersebut tanpa keraguan yang masuk akal. Itu bukan kasus untuk pertanyaan di atas yang tidak ada cukup informasi untuk mengklaim hubungan sebab akibat di luar konteks kebetulan dari pengelompokan kohort. Seseorang dapat, memang, merumuskan begitu banyak hipotesis, misalnya, bahwa evolusi kedermawanan dengan usia dimodifikasi oleh pengalaman zaman budaya / sejarah, sehingga tidak ada kesimpulan yang dapat diambil dari masalah seperti yang dinyatakan. Keyakinan tentang kausalitas seharusnya hanya diambil dari tubuh bukti yang cukup inklusif untuk keyakinan tersebut tanpa keraguan yang masuk akal. Itu bukan kasus untuk pertanyaan di atas yang tidak ada cukup informasi untuk mengklaim hubungan sebab akibat di luar konteks kebetulan dari pengelompokan kohort. Seseorang dapat, memang, merumuskan begitu banyak hipotesis, misalnya, bahwa evolusi kedermawanan dengan usia dimodifikasi oleh pengalaman zaman budaya / sejarah, sehingga tidak ada kesimpulan yang dapat diambil dari masalah seperti yang dinyatakan. Keyakinan tentang kausalitas seharusnya hanya diambil dari tubuh bukti yang cukup inklusif untuk keyakinan tersebut tanpa keraguan yang masuk akal. Itu bukan kasus untuk pertanyaan di atas yang tidak ada cukup informasi untuk mengklaim hubungan sebab akibat di luar konteks kebetulan dari pengelompokan kohort. Seseorang dapat, memang, merumuskan begitu banyak hipotesis, misalnya, bahwa evolusi kedermawanan dengan usia dimodifikasi oleh pengalaman zaman budaya / sejarah, sehingga tidak ada kesimpulan yang dapat diambil dari masalah seperti yang dinyatakan.
sumber