Statistik dan inferensi kausal?

51

Dalam makalahnya tahun 1984 "Statistik dan Inferensial Kausal" , Paul Holland mengajukan salah satu pertanyaan paling mendasar dalam statistik:

Apa yang bisa dikatakan model statistik tentang sebab akibat?

Ini menyebabkan moto-nya:

TIDAK ADA PENYEBAB TANPA MANIPULASI

yang menekankan pentingnya pembatasan di sekitar eksperimen yang mempertimbangkan sebab-akibat. Andrew Gelman membuat poin serupa :

"Untuk mengetahui apa yang terjadi ketika kamu mengubah sesuatu, perlu untuk mengubahnya." ... Ada hal-hal yang kamu pelajari dari gangguan suatu sistem yang kamu tidak akan pernah temukan dari pengamatan pasif dalam jumlah berapa pun.

Ide-idenya dirangkum dalam artikel ini .

Pertimbangan apa yang harus dibuat ketika membuat kesimpulan kausal dari model statistik?

Shane
sumber
2
pertanyaan besar: lihat juga pertanyaan terkait ini tentang statistik
Jeromy Anglim
5
Banyak bicara. Tetapi Anda dapat membaca buku Pearl "Kausalitas" (2002, tetapi edisi ke-2 yang lebih baru), atau buku Hernan and Robins "Kausal Inference" (2015, konsep elektronik online gratis jika Anda mencari).

Jawaban:

28

Ini adalah pertanyaan yang luas, tetapi mengingat kutipan Box, Hunter dan Hunter benar, saya pikir apa yang terjadi

  1. Kualitas desain eksperimental:

    • pengacakan, ukuran sampel, kontrol perancu, ...
  2. Kualitas implementasi desain:

    • kepatuhan terhadap protokol, kesalahan pengukuran, penanganan data, ...
  3. Kualitas model untuk mencerminkan desain secara akurat:

    • struktur pemblokiran direpresentasikan secara akurat, derajat kebebasan yang tepat terkait dengan efek, penaksir tidak bias, ...

Dengan risiko menyatakan yang sudah jelas saya akan mencoba untuk mencapai poin-poin utama dari masing-masing:

  1. adalah sub-bidang statistik yang besar, tetapi dalam bentuk yang paling dasar, saya pikir hal itu bermuara pada fakta bahwa ketika membuat inferensi kausal kita idealnya mulai dengan unit identik yang dipantau di lingkungan yang identik selain ditugaskan untuk perawatan. Setiap perbedaan sistematis antara kelompok setelah assigment kemudian secara logis dikaitkan dengan pengobatan (kita dapat menyimpulkan penyebabnya). Tetapi, dunia tidak begitu baik dan unit berbeda sebelum perawatan dan lingkungan selama percobaan tidak dikontrol dengan sempurna. Jadi kita "mengendalikan apa yang kita bisa dan mengacak apa yang tidak bisa kita", yang membantu memastikan bahwa tidak akan ada bias sistematis karena pembaur yang kita kontrol atau acak. Satu masalah adalah bahwa percobaan cenderung sulit (tidak mungkin) dan mahal dan berbagai macam desain telah dikembangkan untuk secara efisien mengekstrak informasi sebanyak mungkin dalam pengaturan yang dikontrol dengan hati-hati, mengingat biayanya. Beberapa di antaranya cukup ketat (misalnya dalam kedokteran, uji coba double-blind, acak, terkontrol plasebo) dan lainnya kurang begitu (misalnya berbagai bentuk 'eksperimen semu').

  2. juga merupakan masalah besar dan sesuatu yang umumnya tidak dipikirkan oleh para ahli statistik ... meskipun kita seharusnya. Dalam pekerjaan statistik terapan, saya dapat mengingat kembali kejadian-kejadian di mana 'efek' yang ditemukan dalam data adalah hasil palsu dari inkonsistensi pengumpulan atau penanganan data. Saya juga bertanya-tanya seberapa sering informasi tentang efek kausal yang sebenarnya dari minat hilang karena masalah ini (saya percaya siswa dalam ilmu terapan umumnya memiliki sedikit atau tidak pelatihan tentang cara-cara data dapat menjadi rusak - tapi saya keluar dari topik di sini ...)

  3. adalah subjek teknis besar lainnya, dan langkah penting lainnya dalam inferensi kausal objektif. Untuk tingkat tertentu hal ini diatasi karena kerumunan desain mengembangkan desain dan model bersama (karena kesimpulan dari model adalah tujuan, atribut penduga pendorong desain). Tapi ini hanya membuat kita sejauh ini karena di 'dunia nyata' kita akhirnya menganalisis data eksperimental dari desain non-buku teks dan kemudian kita harus berpikir keras tentang hal-hal seperti kontrol yang sesuai dan bagaimana mereka harus memasukkan model dan apa derajat yang terkait dari kebebasan harus dan apakah asumsi dipenuhi jika jika tidak bagaimana menyesuaikan pelanggaran dan seberapa kuat estimator terhadap setiap pelanggaran yang tersisa dan ...

Bagaimanapun, semoga beberapa hal di atas membantu dalam memikirkan pertimbangan dalam membuat inferensial kausal dari model. Apakah saya lupa sesuatu yang besar?

Kingsford Jones
sumber
3
Besar plus satu untuk poin 2. Selain melalui pelatihan perlindungan subyek manusia, saya belum pernah menerima sedikit pun pelatihan tentang pengumpulan dan penyimpanan data. Melakukan pengumpulan data dengan benar jauh lebih penting daripada analisis.
Matt Parker
Saya juga ingin menjawab, tetapi saya khawatir tidak ada yang tersisa untuk ditambahkan pada apa yang dikatakan Kingsford.
Joris Meys
7

Selain jawaban yang sangat baik di atas, ada metode statistik yang dapat membuat Anda lebih dekat dengan menunjukkan hubungan sebab akibat. Adalah Granger Causality yang menunjukkan bahwa satu variabel independen yang terjadi sebelum variabel dependen memiliki efek kausal atau tidak. Saya memperkenalkan metode ini dalam presentasi yang mudah diikuti di tautan berikut:

http://www.slideshare.net/gaetanlion/granger-causality-presentation

Saya juga menerapkan metode ini untuk menguji teori makroekonomi yang bersaing: http://www.slideshare.net/gaetanlion/economic-theory-testing-presentation

Sadarilah bahwa metode ini tidak sempurna. Itu hanya menegaskan bahwa peristiwa-peristiwa tertentu terjadi sebelum yang lain dan bahwa peristiwa-peristiwa itu tampaknya memiliki hubungan terarah yang konsisten. Ini tampaknya memerlukan kausalitas sejati tetapi tidak selalu demikian. Panggilan pagi ayam jago tidak menyebabkan matahari terbit.

Sympa
sumber
4

Apa yang bisa dikatakan model statistik tentang sebab akibat? Pertimbangan apa yang harus dibuat ketika membuat kesimpulan kausal dari model statistik?

Hal pertama yang harus diperjelas adalah bahwa Anda tidak dapat membuat kesimpulan kausal dari model statistik murni. Tidak ada model statistik yang dapat mengatakan apa pun tentang sebab akibat tanpa asumsi sebab akibat. Artinya, untuk membuat inferensial kausal Anda memerlukan model kausal .

Bahkan dalam sesuatu yang dianggap sebagai standar emas, seperti Percobaan Kontrol Acak (RCT), Anda perlu membuat asumsi kausal untuk melanjutkan. Biarkan saya menjelaskannya. Misalnya, anggap adalah prosedur pengacakan, perlakuan yang menarik dan hasil yang diinginkan. Saat mengasumsikan RCT sempurna, inilah yang Anda asumsikan:ZXY

masukkan deskripsi gambar di sini

Dalam hal ini sehingga semuanya bekerja dengan baik. Namun, misalkan Anda memiliki kepatuhan yang tidak sempurna yang mengakibatkan hubungan terkutuk antara dan . Lalu, sekarang, RCT Anda terlihat seperti ini:P(Y|do(X))=P(Y|X)XY

masukkan deskripsi gambar di sini

Anda masih dapat melakukan niat untuk menangani analisis. Tetapi jika Anda ingin memperkirakan efek sebenarnya dari hal-hal tidak sederhana lagi. Ini adalah pengaturan variabel instrumental, dan Anda mungkin dapat mengikat atau bahkan menunjukkan efek jika Anda membuat beberapa asumsi parametrik .X

Ini bisa menjadi lebih rumit. Anda mungkin memiliki masalah kesalahan pengukuran, subjek mungkin berhenti studi atau tidak mengikuti instruksi, di antara masalah lainnya. Anda perlu membuat asumsi tentang bagaimana hal-hal itu terkait dengan proses dengan inferensi. Dengan data pengamatan "murni" ini bisa menjadi lebih bermasalah, karena biasanya para peneliti tidak akan memiliki ide yang baik tentang proses pembuatan data.

Oleh karena itu, untuk menarik kesimpulan kausal dari model, Anda perlu menilai tidak hanya asumsi statistiknya, tetapi yang paling penting adalah asumsi penyebabnya. Berikut adalah beberapa ancaman umum terhadap analisis kausal:

  • Data tidak lengkap / tidak tepat
  • Kuantitas kausal target tidak terlalu jelas (Apa efek kausal yang ingin Anda identifikasi? Apa populasi target?)
  • Confounding (perancu yang tidak teramati)
  • Bias seleksi (pemilihan sendiri, sampel terpotong)
  • Kesalahan pengukuran (yang dapat menyebabkan gangguan, tidak hanya noise)
  • Kesalahan spesifikasi (mis., Bentuk fungsional yang salah)
  • Masalah validitas eksternal (kesimpulan salah untuk populasi target)

Kadang-kadang klaim tidak adanya masalah ini (atau klaim untuk mengatasi masalah ini) dapat didukung oleh desain penelitian itu sendiri. Itu sebabnya data eksperimental biasanya lebih kredibel. Namun, kadang-kadang, orang akan menganggap masalah ini baik dengan teori atau untuk kenyamanan. Jika teorinya lunak (seperti dalam ilmu sosial) akan lebih sulit untuk mengambil kesimpulan pada nilai nominal.

Setiap kali Anda berpikir ada asumsi yang tidak dapat didukung, Anda harus menilai seberapa sensitif kesimpulan itu terhadap pelanggaran yang masuk akal terhadap asumsi-asumsi tersebut --- ini biasanya disebut analisis sensitivitas.

Carlos Cinelli
sumber
Apakah akan sama dengan mengganti panah dua arah putus-putus dengan dua panah padat satu arah dari simpul tambahan?
Taylor
@Aylor ya, simpul tambahan laten (tidak teramati).
Carlos Cinelli