Setelah kami menunjukkan bahwa dua kuantitas berkorelasi, bagaimana kita menyimpulkan bahwa hubungan itu kausal? Dan selanjutnya yang mana yang menyebabkan apa? Sekarang dalam teori kita dapat menggunakan "tugas acak" (apa pun kata yang tepat), untuk memutus ikatan kecelakaan yang mungkin ada di antara dua variabel. Tetapi dalam beberapa kasus ini tidak mungkin dilakukan. Misalnya, pertimbangkan seberapa sering seseorang merokok, diukur dalam rokok per minggu, vs harapan hidup, diukur dalam tahun. Kami dapat secara acak memilih dua kelompok orang. Buat satu kelompok merokok dan yang lain tidak. Karena tugasnya acak, ini akan memutus hubungan lain di antara mereka. Tetapi ini tentu saja tidak mungkin dilakukan karena berbagai alasan. Jadi apa sajakah teknik yang dapat digunakan?
sumber
Jawaban:
Saya pikir ini adalah pertanyaan yang sangat bagus. Saya sering menghadapi masalah ini dan banyak memikirkannya. Saya melakukan penelitian dalam ilmu kedokteran dan gagasan dalam kedokteran adalah bahwa tidak ada yang terbukti sebagai penyebab, tidak pernah, tidak pernah, tidak pernah, sampai uji coba klinis terkontrol secara acak, lebih disukai dengan pil (atau paparan lain yang dapat triple-blinded), telah membuktikan berpengaruh pada respons bunga. Ini cukup menyedihkan, karena semua studi lain dianggap sebagai studi asosiasi, yang cenderung mengurangi dampaknya.
Hill dan Richard Doll memikirkan hal ini. Mantan kriteria yang dirumuskan Hill untuk kausalitas:
Ini dirumuskan sekitar 50 tahun yang lalu, sebelum munculnya uji coba secara acak (yang mungkin tidak menarik bagi bidang khusus Anda) tetapi perlu dicatat bahwa percobaan tidak diberi peran penting dalam kriteria Hill.
Saya ingin berpikir bahwa data pengamatan, jika dianalisis dengan metode statistik yang tepat, memang memungkinkan untuk menyimpulkan hubungan sebab akibat. (Tentu saja ini tergantung pada banyak faktor.) Tetapi di bidang saya, ketika datang ke perubahan manajemen pasien, jarang melihat pedoman yang dibentuk oleh apa pun selain uji coba acak dan pengantar pedoman sering menggarisbawahi bahwa kausalitas tertentu hanya dapat diperoleh dalam uji acak.
Sekarang saya tahu bahwa banyak dari Anda tidak akan setuju dengan saya. Saya juga tidak setuju dengan diri saya sendiri. Tapi itu mungkin menambah diskusi.
sumber
Statistik menyediakan alat untuk mendeteksi dan memodelkan keteraturan dalam data. Proses pemodelan biasanya dipandu oleh pengetahuan materi pelajaran. Ketika model mewakili mekanisme subjek-materi, sifat statistik dari model yang diestimasi memberi tahu apakah data bertentangan dengan mekanisme yang dimodelkan. Kemudian kausalitas (atau ketiadaan) disimpulkan - dan ini dilakukan pada domain subjek-materi .
Contoh: misalkan Anda memiliki sampel acak dari dua variabelx dan y . Korelasi di antara mereka besar dan signifikan secara statistik.
Sejauh ini, bisa Anda katakan apakahx penyebab y ? Saya kira tidak.
Sekarang tambahkan pengetahuan subjek ke data.
→ orang-orang suka membeli sepatu yang sesuai dengan ukuran kaki mereka, sehingga ukuran kaki menyebabkan pilihan ukuran sepatu (tetapi tidak sebaliknya).
→ orang dewasa cenderung lebih tinggi dan lebih berat daripada anak-anak, tetapi apakah itu berarti berat menyebabkan tinggi atau tinggi menyebabkan berat? Genetika, nutrisi, usia dan faktor-faktor lain menyebabkan keduanya.
Kasus A: variabel yang diamati adalah panjang kaki dan ukuran sepatu favorit
Kasus B: variabel yang diamati adalah tinggi dan berat orang
sumber
Pertanyaan saat ini mengasumsikan bahwa kuantitas berkorelasi, yang menyiratkan bahwa orang yang menentukan korelasi harus memiliki alasan yang baik untuk percaya bahwa variabel-variabel tersebut memiliki hubungan linier.
Granger Causality mungkin menjadi alat terbaik untuk menentukan hubungan kausal linier. Granger adalah seorang ekonom yang berbagi hadiah nobel untuk karyanya tentang Penyebab linear.
Granger menyarankan itu untuk satu set variabel{X( i )t}ki = 1 untuk dianggap sebagai sebab akibat Yt , dua syarat harus berlaku:
Untuk menemukan informasi yang dibagikan, seseorang dapat menggunakan regresi (walaupun berhati-hatilah bahwa koefisien regresi yang signifikan tidak menyiratkan informasi yang dibagikan secara teori - hanya dalam praktiknya). Secara khusus, seseorang ingin membandingkan residual dengan dan tanpa variabel penyebab. Anggap variabel sebagai vektor kolom, sehinggaX= [X( 1 )t - 1,X( 1 )t - 2, ... ,X( 1 )t - m,X( 2 )t - 1,X( 2 )t - 2, ... ,X( 2 )t - m, ... ,X( k )t - m]T juga merupakan vektor kolom, dan Y= [Yt -1,Yt - 2, ...,Yt - m]T adalah vektor kolom. (m disebut urutan atau jeda waktu. Ada metode untuk memilih secara optimalm , tapi saya pikir orang hanya menebak yang terbaik m atau mendasarkannya pada kendala lain.) Kemudian persamaan regresi yang menarik adalah
Untuk memastikan bahwa informasi tersebut tidak diperhitungkan oleh sumber lain, orang akan mengumpulkan setiap variabel lain yang dapat dipertanggungjawabkan, katakanlahZ( 1 )t, ... ,Z( p )t , tentukan Z= [Z( 1 )t - 1,Z( 1 )t - 2, ... ,Z( p )t - m]T , dan lakukan regresi
Ini hanya sketsa kasar dan saya percaya bahwa banyak penulis telah memperbaiki gagasan ini.
sumber
Anda tidak bisa - setidaknya tidak dalam statistik.
Maxim: Anda tidak akan pernah tahu pasti bahwa efek dari satu variabel disebabkan oleh yang lain. Alasannya: Anda tidak akan pernah tahu jika tidak ada variabel lain yang tidak Anda sadari dan data yang Anda kumpulkan tidak mungkin memberi tahu Anda.
Fakta kehidupan adalah bahwa pengumpulan data tidak selalu mencukupi ketika data statis dan fenomena itu dinamis - seperti perilaku manusia. Di sana, pengumpulan data itu sendiri dapat memunculkan hasil, seperti halnya dalam fisika partikel fakta pengamatan itu sendiri tidak dapat dihapus dari persamaan.
sumber