The Book of Why oleh Judea Pearl: Mengapa dia memukul statistik?

79

Saya sedang membaca The Book of Why karya Judea Pearl, dan itu sudah masuk ke kulit saya 1 . Secara khusus, tampak bagi saya bahwa ia tanpa syarat menghantam statistik "klasik" dengan mengemukakan argumen orang bodoh bahwa statistik tidak pernah dapat menyelidiki hubungan sebab akibat, bahwa ia tidak pernah tertarik pada hubungan sebab akibat, dan bahwa statistik "menjadi model perusahaan reduksi data yang buta ". Statistik menjadi kata jelek di bukunya.

Sebagai contoh:

Para ahli statistik sangat bingung tentang variabel apa yang harus dan tidak boleh dikontrol, jadi praktik standarnya adalah mengontrol segala sesuatu yang dapat diukur. [...] Ini adalah prosedur yang mudah dan sederhana untuk diikuti, tetapi prosedur ini boros dan penuh kesalahan. Suatu pencapaian kunci dari Revolusi Kausal adalah mengakhiri kebingungan ini.

Pada saat yang sama, ahli statistik sangat meremehkan pengendalian dalam arti bahwa mereka enggan berbicara tentang kausalitas sama sekali [...]

Namun, model kausal telah ada dalam statistik seperti, selamanya. Maksud saya, model regresi dapat digunakan pada dasarnya model kausal, karena kami pada dasarnya mengasumsikan bahwa satu variabel adalah penyebab dan yang lainnya adalah efek (maka korelasi adalah pendekatan yang berbeda dari pemodelan regresi) dan menguji apakah hubungan sebab akibat ini menjelaskan pola yang diamati .

Kutipan lain:

Tidak heran ahli statistik khususnya menemukan teka-teki ini [masalah Monty Hall] sulit untuk dipahami. Mereka terbiasa, seperti yang dikatakan RA Fisher (1922), "reduksi data" dan mengabaikan proses pembuatan data.

Ini mengingatkan saya pada jawaban yang ditulis Andrew Gelman kepada kartun xkcd terkenal di Bayesians dan frequentist: "Tetap saja, saya pikir kartun itu secara keseluruhan tidak adil karena membandingkan Bayesian yang masuk akal dengan seorang ahli statistik yang sering membabi buta mengikuti saran dari buku teks yang dangkal . "

Jumlah penyajian yang keliru dari kata-s yang, seperti yang saya rasakan, ada dalam buku Judea Pearls membuat saya bertanya-tanya apakah inferensial kausal (yang sampai sekarang saya anggap sebagai cara yang berguna dan menarik untuk mengatur dan menguji hipotesis ilmiah 2 ) dipertanyakan.

Pertanyaan: menurut Anda apakah Judea Pearl salah menggambarkan statistik, dan jika ya, mengapa? Hanya untuk membuat inferensi kausal terdengar lebih besar dari itu? Apakah Anda berpikir bahwa inferensial kausal adalah Revolusi dengan R besar yang benar-benar mengubah semua pemikiran kita?

Sunting:

Pertanyaan-pertanyaan di atas adalah masalah utama saya, tetapi karena memang, sudah diakui, tolong jawab pertanyaan-pertanyaan konkret ini (1) apa arti dari "Revolusi Penyebab"? (2) apa bedanya dengan statistik "ortodoks"?

1. Juga karena ia adalah seperti seorang pria sederhana.
2. Maksud saya dalam arti ilmiah, bukan statistik.

EDIT : Andrew Gelman menulis posting blog ini di buku Judea Pearls dan saya pikir dia melakukan pekerjaan yang jauh lebih baik menjelaskan masalah saya dengan buku ini daripada saya. Berikut adalah dua kutipan:

Di halaman 66 buku ini, Pearl dan Mackenzie menulis bahwa statistik "menjadi perusahaan pengurangan data model-blind." Hei! Apa yang kamu bicarakan ?? Saya seorang ahli statistik, saya telah melakukan statistik selama 30 tahun, bekerja di berbagai bidang mulai dari politik hingga toksikologi. "Pengurangan data model-blind"? Itu hanya omong kosong. Kami menggunakan model sepanjang waktu.

Dan satu lagi:

Melihat. Saya tahu tentang dilema pluralis. Di satu sisi, Pearl percaya bahwa metodenya lebih baik daripada semua yang datang sebelumnya. Baik. Bagi dia, dan bagi banyak orang lain, mereka adalah alat terbaik di luar sana untuk mempelajari inferensi kausal. Pada saat yang sama, sebagai seorang pluralis, atau seorang mahasiswa sejarah ilmiah, kami menyadari bahwa ada banyak cara untuk membuat kue. Sangat menantang untuk menunjukkan rasa hormat terhadap pendekatan yang Anda tidak benar-benar bekerja untuk Anda, dan pada satu titik satu-satunya cara untuk melakukannya adalah mundur dan menyadari bahwa orang-orang nyata menggunakan metode ini untuk menyelesaikan masalah nyata. Sebagai contoh, saya pikir membuat keputusan menggunakan nilai-p adalah ide yang mengerikan dan tidak logis secara logis yang menyebabkan banyak bencana ilmiah; pada saat yang sama, banyak ilmuwan berhasil menggunakan nilai-p sebagai alat untuk belajar. Saya tahu itu. Demikian pula, Saya akan merekomendasikan bahwa Pearl mengakui bahwa peralatan statistik, pemodelan regresi hierarkis, interaksi, poststratifikasi, pembelajaran mesin, dll., Memecahkan masalah nyata dalam inferensial kausal. Metode kami, seperti metode Pearl, juga bisa mengacaukan — GIGO! —Dan mungkin benar Pearl bahwa kita semua akan lebih baik beralih ke pendekatannya. Tapi saya pikir itu tidak membantu ketika dia memberikan pernyataan yang tidak akurat tentang apa yang kita lakukan.

Januari
sumber
41
Regresi linier bukan model kausal. Regresi linier sederhana sama dengan korelasi berpasangan, satu - satunya perbedaan adalah standarisasi . Jadi, jika Anda mengatakan bahwa regresi adalah kausal, maka hal yang sama juga berlaku untuk korelasi. Apakah penyebab korelasi? Anda dapat menggunakan regresi untuk memprediksi apa pun, hubungan omong kosong antara variabel sembarang (dengan banyak hasil "signifikan" secara kebetulan).
Tim
8
Ketidaksepakatan tentang pendekatan mana untuk penalaran tentang kausalitas dalam statistik memiliki manfaat paling besar antara Pearl, Rubin, Heckman dan lain-lain tampaknya telah bernanah, dan saya pikir nada Pearl menjadi semakin angkuh. Jangan biarkan hal itu mengalihkan Anda dari wawasan sejati yang ia tawarkan. Baca bukunya yang sebelumnya Kausalitas, itu akan mendapatkan di bawah kulit Anda kurang.
CloseToC
7
@CloseToC Saya akan menambahkan bahwa Pearl, Rubin dan Heckman dengan cara semua bekerja dalam kerangka kerja yang sama (yaitu, kerangka kerja yang setara secara logis, lihat di sini stats.stackexchange.com/questions/249767/… ), sehingga perselisihan mereka berbeda tingkat dari berdebat hal-hal seperti "regresi linier adalah model kausal".
Carlos Cinelli
9
Saya sendiri merasa terganggu oleh buku itu. Ada beberapa klaim statistik palsu di sana (tidak bisa mengutip sekarang, buku dengan catatan saya di margin di rumah) yang membuat saya bertanya-tanya apakah hanya jurnalis yang membantu Pearl menulis buku atau juga Pearl sendiri adalah ahli statistik yang buruk. (Tak perlu dikatakan, saya sangat terkejut menemukan kesalahan terang-terangan dalam karya ilmuwan yang begitu dihormati.) Surat-suratnya jauh lebih baik, meskipun bahkan tidak ada yang akan menuduh Pearl karena kesopanan ...
Richard Hardy
15
Saya memiliki kekhawatiran bahwa utas ini sudah kusut bersama-sama (a) buku khusus dari orang yang sangat pintar (b) bahwa kepribadian dan gaya debat orang pintar (c) apakah sudut pandang tertentu benar, berlebihan, atau apa pun.
Nick Cox

Jawaban:

59

Saya sepenuhnya setuju bahwa nada suara Pearl sombong, dan karakterisasinya tentang "ahli statistik" sederhana dan monolitik. Juga, saya tidak menemukan tulisannya sangat jelas.

Namun, saya pikir dia ada benarnya.

Penalaran kausal bukan bagian dari pelatihan formal saya (MSc): yang paling dekat saya dengan topik adalah kursus elektif dalam desain eksperimental, yaitu setiap klaim kausalitas mengharuskan saya untuk secara fisik mengendalikan lingkungan. Buku Pearl, Kausalitas, adalah paparan pertama saya terhadap penolakan terhadap gagasan ini. Jelas saya tidak bisa berbicara untuk semua ahli statistik dan kurikulum, tetapi dari sudut pandang saya sendiri, saya berlangganan pengamatan Pearl bahwa penalaran kausal bukan prioritas dalam statistik.

Memang benar bahwa ahli statistik kadang-kadang mengontrol lebih banyak variabel daripada yang diperlukan, tetapi ini jarang menyebabkan kesalahan (setidaknya dalam pengalaman saya).

Ini juga keyakinan yang saya pegang setelah lulus dengan gelar MSc dalam statistik pada tahun 2010.

Namun, itu sangat salah. Saat Anda mengontrol efek umum (disebut "collider" dalam buku), Anda dapat memperkenalkan bias pemilihan. Kesadaran ini sangat mencengangkan bagi saya, dan benar-benar meyakinkan saya tentang manfaat mewakili hipotesis sebab akibat saya sebagai grafik.

EDIT: Saya diminta untuk menjelaskan bias seleksi. Topik ini cukup halus, saya sangat merekomendasikan membaca MOX edX pada Kausal Diagram , sebuah pengantar yang sangat bagus untuk grafik yang memiliki bab yang didedikasikan untuk bias seleksi.

Sebagai contoh mainan, untuk memparafrasekan makalah ini yang dikutip dalam buku: Pertimbangkan variabel A = daya tarik, B = keindahan, C = kompetensi. Misalkan B dan C tidak berhubungan secara kausal dalam populasi umum (yaitu, kecantikan tidak menyebabkan kompetensi, kompetensi tidak menyebabkan kecantikan, dan kecantikan dan kompetensi tidak memiliki penyebab yang sama). Anggap juga bahwa salah satu dari B atau C cukup untuk menjadi menarik, yaitu A adalah collider. Pengkondisian pada A menciptakan hubungan palsu antara B dan C.

Contoh yang lebih serius adalah "paradoks berat badan lahir", yang menurutnya merokok seorang ibu (S) selama kehamilan tampaknya menurunkan angka kematian (M) bayi, jika bayinya kekurangan berat badan (U). Penjelasan yang diajukan adalah bahwa cacat lahir (D) juga menyebabkan berat badan lahir rendah, dan juga berkontribusi terhadap kematian. Diagram kausal yang sesuai adalah {S -> U, D -> U, U -> M, S -> M, D -> M} di mana U adalah collider; pengkondisian padanya memperkenalkan asosiasi palsu. Intuisi di balik ini adalah bahwa jika ibu seorang perokok, berat badan lahir rendah cenderung menjadi cacat.

mitchus
sumber
8
+1. Bisakah Anda menguraikan sedikit lebih banyak tentang bagaimana hal itu memperkenalkan bias seleksi? Mungkin sedikit contoh nyata akan menjelaskan bagi sebagian besar pembaca.
Amuba kata Reinstate Monica
2
Terima kasih atas hasil editnya. Ini adalah contoh yang sangat jelas.
Amuba kata Reinstate Monica
Jadi, intuisi untuk Berat Lahir Rendah Bayi Perokok 'Smokers', benar?
Malady
@Malandy: model ini konsisten dengan data, dan masuk akal secara intuitif. Saya tidak tahu apakah itu benar.
mitchus
FYI andrewgelman.com/2019/01/08/book-pearl-mackenzie
amoeba mengatakan Reinstate Monica
71

Pertanyaan Anda mencerminkan apa yang dikatakan Pearl!

regresi linier sederhana pada dasarnya adalah model kausal

Tidak, regresi linier adalah model statistik, bukan model kausal. Misalkan adalah variabel acak dengan distribusi normal multivariat. Maka Anda dapat memperkirakan dengan benar ekspektasi linear , , , dll menggunakan regresi linier, tetapi ada tidak ada di sini yang mengatakan apakah jumlah itu adalah sebab-akibat.Y,X,ZE[YX]E[XY]E[YX,Z]E[ZY,X]

Persamaan struktural linear, di sisi lain, adalah model kausal. Tetapi langkah pertama adalah untuk memahami perbedaan antara asumsi statistik (kendala pada distribusi probabilitas gabungan yang diamati) dan asumsi kausal (kendala pada model sebab akibat).

Menurut Anda apakah Judea Pearl salah menggambarkan statistik, dan jika ya, mengapa?

Tidak, saya kira tidak, karena kita melihat kesalahpahaman ini setiap hari. Tentu saja, Pearl membuat beberapa generalisasi, karena beberapa ahli statistik bekerja dengan inferensial kausal (Don Rubin adalah pelopor dalam mempromosikan hasil potensial ... juga, saya seorang ahli statistik!). Tetapi ia benar dalam mengatakan bahwa sebagian besar pendidikan statistik tradisional menghindari kausalitas, bahkan untuk secara formal mendefinisikan apa efek kausal itu.

Untuk memperjelas hal ini, jika kita bertanya pada ahli statistik / ekonometrika dengan hanya pelatihan reguler untuk mendefinisikan secara matematis berapa nilai yang diharapkan dari jika kita mengintervensi , dia mungkin akan menulis (lihat contoh di sini) ! Tapi itu kuantitas pengamatan, bukan itu cara Anda mendefinisikan efek kausal! Dengan kata lain, saat ini, seorang siswa yang hanya mengikuti kursus statistik tradisional bahkan tidak memiliki kemampuan untuk mendefinisikan jumlah ini dengan benar secara matematis ( atau ) jika Anda tidak terbiasa dengan teori sebab akibat / kontrafaktual !YXE[Y|X] E [ Y x ] E [ Y | d o ( x ) ]E[Yx]E[Y|do(x)]

Kutipan yang Anda bawa dari buku juga merupakan contoh yang bagus. Anda tidak akan menemukan dalam buku statistik tradisional definisi yang benar tentang apa yang membingungkan, atau panduan tentang kapan Anda harus (atau tidak seharusnya) menyesuaikan diri dengan kovariat dalam studi observasi. Secara umum, Anda melihat "kriteria korelasional", seperti "jika kovariat dikaitkan dengan pengobatan dan dengan hasilnya, Anda harus menyesuaikan untuk itu". Salah satu contoh paling menonjol dari kebingungan ini muncul di Simpson's Paradox — ketika dihadapkan dengan dua perkiraan tanda yang berlawanan, mana yang harus Anda gunakan, yang disesuaikan atau tidak disesuaikan? Jawabannya, tentu saja, tergantung pada model kausal.

Dan apa yang dimaksud Pearl ketika dia mengatakan bahwa pertanyaan ini diakhiri? Dalam hal penyesuaian sederhana melalui regresi, ia mengacu pada kriteria backdoor (lihat lebih lanjut di sini) . Dan untuk identifikasi secara umum --- di luar penyesuaian sederhana --- dia berarti bahwa kita sekarang memiliki algoritma lengkap untuk identifikasi efek sebab-akibat untuk setiap DAG semi-markovian.

Komentar lain di sini layak untuk disampaikan. Bahkan dalam studi eksperimental - di mana statistik tradisional pasti telah melakukan banyak pekerjaan penting dengan desain eksperimen! - pada akhirnya Anda masih memerlukan model kausal . Eksperimen dapat mengalami kurangnya kepatuhan, dari kehilangan tindak lanjut, dari bias seleksi ... juga, sebagian besar waktu Anda tidak ingin membatasi hasil eksperimen Anda ke populasi spesifik yang Anda analisis, Anda ingin menggeneralisasi Anda hasil percobaan untuk populasi yang lebih luas / berbeda. Di sini, sekali lagi, orang mungkin bertanya: apa yang harus Anda sesuaikan? Apakah data dan pengetahuan substantif yang Anda miliki cukup untuk memungkinkan ekstrapolasi seperti itu? Semua ini adalah konsep kausal, oleh karena itu Anda memerlukan bahasa untuk secara formal mengungkapkan asumsi kausal dan memeriksa apakah mereka cukup untuk memungkinkan Anda melakukan apa yang Anda inginkan!

Singkatnya, kesalahpahaman ini tersebar luas dalam statistik dan ekonometrika, ada beberapa contoh di sini di Cross Validated, seperti:

Dan masih banyak lagi.

Apakah Anda berpikir bahwa inferensial kausal adalah Revolusi dengan R besar yang benar-benar mengubah semua pemikiran kita?

Mengingat keadaan saat ini dalam banyak ilmu pengetahuan, seberapa banyak kita telah maju dan seberapa cepat hal-hal berubah, dan seberapa banyak kita masih bisa melakukan, saya akan mengatakan ini memang sebuah revolusi.

PS : Pearl menyarankan dua postingnya di blog kausalitas UCLA yang akan menarik untuk diskusi ini, Anda dapat menemukan posting di sini dan di sini .

PS 2 : Seperti yang disebutkan oleh Januari dalam suntingan barunya, Andrew Gelman memiliki posting baru di blognya. Selain debat di blog Gelman, Pearl juga menjawab di twitter (di bawah):

Ulasan Gelman tentang # Bookofwhy harus menarik karena itu mewakili sikap yang melumpuhkan lingkaran luas para peneliti statistik. Reaksi awal saya sekarang diposting di https://t.co/mRyDcgQtEc Posting terkait:https://t.co/xUwR6eCGrZ danhttps://t.co/qwqV3oyGUy

- Mutiara Judea (@yudapearl) 9 Januari 2019

Carlos Cinelli
sumber
4
Terima kasih. Tapi - yah, menulis secara sederhana, saya bisa menghitung E [X | Y] dan juga E [Y | X], tapi saya bisa menulis X ← Y dan X → Y dalam DAG. Dengan satu atau lain cara, saya harus mulai dengan hipotesis ilmiah atau model. Hipotesis saya, model saya - pilihan saya. Fakta bahwa saya dapat melakukan sesuatu bukan berarti saya harus melakukannya, bukan.
Januari
3
@ Janary itu tidak berarti Anda harus, intinya di sini hanya tentang mampu mengartikulasikan secara akurat apa yang ingin Anda perkirakan (estimasi sebab akibat), mengartikulasikan secara akurat asumsi sebab akibat Anda (menjelaskan perbedaan asumsi sebab akibat dan statistik), memeriksa implikasi logis dari asumsi kausal dan mampu memahami apakah asumsi + data kausal Anda cukup untuk menjawab pertanyaan Anda.
Carlos Cinelli
3
@January mengatakan Anda memiliki sebuah studi observasional dan ingin memperkirakan efek kausal dari pada . Bagaimana Anda memutuskan kovariat mana yang akan dimasukkan dalam regresi Anda? YXY
Carlos Cinelli
4
Saya kira begitu: tampaknya tidak sepenuhnya tidak adil untuk menyarankan bahwa ahli statistik rata-rata Anda, sementara mungkin cukup berpengalaman dalam inferensial kausal dari eksperimen terkontrol, & tentu saja tidak dalam bahaya membingungkan korelasi dengan sebab-akibat, mungkin agak goyah pada kesimpulan kausal dari pengamatan. data. Saya mengambil yang terakhir sebagai konteks dari kutipan (saya belum membaca buku) & itu adalah sesuatu yang mungkin tidak diterima oleh beberapa pembaca posting ini.
Scortchi
5
@January Singkatnya "penyesuaian untuk kovariat" tidak berarti Anda telah menghilangkan bias dalam estimasi efek sebab akibat dari variabel-variabel tersebut.
Alexis
31

Saya penggemar tulisan Judea, dan saya sudah membaca Kausalitas (cinta) dan Book of Why (suka).

Saya tidak merasa bahwa Yudea sedang memukul statistik. Sulit mendengar kritik. Tapi apa yang bisa kita katakan tentang seseorang atau bidang yang tidak menerima kritik? Mereka cenderung dari kebesaran ke kepuasan. Anda harus bertanya: apakah kritik itu benar, dibutuhkan, bermanfaat, dan apakah itu mengusulkan alternatif? Jawaban untuk semua itu adalah "Ya" tegas.

Benar? Saya telah meninjau dan berkolaborasi pada beberapa lusin makalah, sebagian besar analisis data pengamatan, dan saya jarang merasa ada diskusi yang cukup tentang kausalitas. Pendekatan "penyesuaian" melibatkan pemilihan variabel karena dipilih langsung dari DD sebagai "berguna" "relevan" "penting" atau omong kosong lainnya. 1

Dibutuhkan? Media dibanjiri dengan pernyataan yang tampaknya bertentangan tentang efek kesehatan dari paparan besar. Ketidakkonsistenan dengan analisis data telah menghentikan bukti yang membuat kita kekurangan kebijakan yang bermanfaat, prosedur perawatan kesehatan, dan rekomendasi untuk kehidupan yang lebih baik.

Berguna? Komentar Judea cukup relevan dan cukup spesifik untuk membuat jeda. Ini secara langsung relevan dengan analisis data apa pun yang mungkin ditemui ahli statistik atau pakar data.

Apakah itu mengusulkan alternatif? Ya, Judea sebenarnya membahas kemungkinan metode statistik tingkat lanjut, dan bahkan bagaimana mereka mereduksi menjadi kerangka kerja statistik yang dikenal (seperti Structural Equation Modeling) dan hubungannya dengan model regresi). Itu semua bermuara pada membutuhkan pernyataan eksplisit dari pengetahuan konten yang telah memandu pendekatan pemodelan.

Judea tidak hanya menyarankan kita mendefestrasi ulang semua metode statistik (misalnya regresi). Sebaliknya, ia mengatakan bahwa kita perlu merangkul beberapa teori kausal untuk membenarkan model.

1 keluhan di sini adalah tentang penggunaan bahasa yang meyakinkan dan tidak tepat untuk membenarkan apa yang akhirnya merupakan pendekatan yang salah untuk pemodelan. Mungkin ada tumpang tindih, kebetulan, tetapi Pearl jelas tentang tujuan diagram sebab akibat (DAG) dan bagaimana variabel dapat diklasifikasikan sebagai "perancu".

AdamO
sumber
3
Jawaban bagus. Perhatikan bahwa tidak menjadi ahli statistik tetapi telah melayani sebagai penghubung antara statistik dan biologi selama bertahun-tahun, bagi saya setiap kritik terhadap ahli statistik benar-benar tidak terlalu sulit untuk didengar ;-) Namun, apakah Anda benar-benar berpikir bahwa "statistik ortodoks" tidak dapat menangani hubungan sebab akibat? sama sekali, seperti yang secara eksplisit dinyatakan oleh Pearl?
Januari
4
@ Jan auari contraire . Saya berpikir bahwa kekurangan di antara ahli statistik dalam menerima inferensial kausal dalam analisis mereka secara langsung berkaitan dengan kekurangan mereka dalam memahami inferensi frequentist. Ini adalah alasan kontrafaktual yang kurang.
AdamO
4
+1 "Pendekatan" penyesuaian "melibatkan pemilihan variabel karena dipilih langsung dari DD sebagai" berguna "" relevan "" penting "atau omong kosong lainnya tanpa benar-benar memasukkan hipotesis formal tentang hubungan kausal spesifik di antara mereka ( a la the penggunaan formal DAG) . " Edit ditambahkan. :)
Alexis
Komentar bukan untuk diskusi panjang; percakapan ini telah dipindahkan ke obrolan .
Scortchi
23

Saya belum membaca buku ini, jadi saya hanya bisa menilai kutipan tertentu yang Anda berikan. Namun, bahkan atas dasar ini, saya setuju dengan Anda bahwa ini tampaknya sangat tidak adil bagi profesi statistik. Saya benar-benar berpikir bahwa ahli statistik selalu melakukan pekerjaan yang sangat baik dalam menekankan perbedaan antara asosiasi statistik (korelasi, dll.) Dan hubungan sebab akibat, dan peringatan terhadap perpaduan keduanya. Memang, dalam pengalaman saya, ahli statistik pada umumnya adalah kekuatan profesional utama yang berjuang melawan kebingungan yang ada di mana-mana antara sebab dan korelasi. Adalah sangat keliru (dan sebenarnya fitnah) untuk mengklaim bahwa ahli statistik adalah "... enggan membicarakan kausalitas sama sekali." Saya bisa melihat mengapa Anda kesal membaca omong kosong sombong seperti ini.

Saya akan mengatakan bahwa itu cukup umum untuk non-ahli statistikyang menggunakan model statistik untuk memiliki pemahaman yang buruk tentang hubungan antara asosiasi statistik dan hubungan sebab akibat. Beberapa memiliki pelatihan ilmiah yang baik dari bidang lain, dalam hal ini mereka mungkin juga sangat menyadari masalah ini, tetapi ada beberapa orang yang menggunakan model statistik yang kurang memahami masalah ini. Ini benar dalam banyak bidang ilmiah terapan di mana praktisi memiliki pelatihan dasar dalam statistik, tetapi tidak mempelajarinya di tingkat yang dalam. Dalam kasus-kasus ini, seringkali para ahli statistik profesional yang memperingatkan peneliti lain tentang perbedaan antara konsep-konsep ini dan hubungan mereka yang semestinya. Ahli statistik seringkali merupakan perancang kunci RCT dan eksperimen lain yang melibatkan kontrol yang digunakan untuk mengisolasi kausalitas. Mereka sering dipanggil untuk menjelaskan protokol seperti pengacakan, plasebo, dan protokol lain yang digunakan untuk mencoba memutuskan hubungan dengan variabel perancu potensial. Memang benar bahwa ahli statistik kadang-kadang mengontrol lebih banyak variabel daripada yang diperlukan, tetapi ini jarang menyebabkan kesalahan (setidaknya dalam pengalaman saya). Saya pikir sebagian besar ahli statistik menyadari perbedaan antara keduanyavariabel perancu dan variabel penumbuk ketika mereka melakukan analisis regresi dengan pandangan untuk kesimpulan kausal, dan bahkan jika mereka tidak selalu membangun model yang sempurna, gagasan bahwa mereka entah bagaimana menghindari pertimbangan kausalitas hanya konyol.

Saya pikir Judea Pearl telah membuat kontribusi yang sangat berharga untuk statistik dengan karyanya tentang hubungan sebab akibat, dan saya berterima kasih kepadanya untuk kontribusi yang luar biasa ini. Dia telah membangun dan memeriksa beberapa formalisme yang sangat berguna yang membantu mengisolasi hubungan sebab akibat, dan karyanya telah menjadi pokok pendidikan statistik yang baik. Saya membaca bukunya Causalityketika saya masih mahasiswa pascasarjana, dan itu ada di rak saya, dan di rak-rak banyak ahli statistik lainnya. Banyak formalisme ini menggemakan hal-hal yang telah diketahui secara intuitif oleh para ahli statistik sejak sebelum mereka diformalkan ke dalam sistem aljabar, tetapi bagaimanapun juga sangat berharga, dan melampaui apa yang sudah jelas. (Saya benar-benar berpikir di masa depan kita akan melihat penggabungan operasi "do" dengan aljabar probabilitas yang terjadi pada tingkat aksiomatik, dan ini mungkin pada akhirnya akan menjadi inti dari teori probabilitas. Saya akan senang melihat ini dibangun langsung ke dalam pendidikan statistik , sehingga Anda belajar tentang model kausal dan operasi "lakukan" ketika Anda mempelajari tentang ukuran probabilitas.)

Satu hal terakhir yang perlu diingat di sini adalah bahwa ada banyak aplikasi statistik di mana tujuannya adalah prediksi , di mana praktisi tidak berusaha untuk menyimpulkan sebab akibat. Jenis aplikasi ini sangat umum dalam statistik, dan dalam kasus seperti itu, penting untuk tidak membatasi diri pada hubungan kausal. Ini berlaku di sebagian besar aplikasi statistik di bidang keuangan, SDM, pemodelan tenaga kerja, dan banyak bidang lainnya. Seseorang seharusnya tidak meremehkan jumlah konteks di mana seseorang tidak dapat atau tidak seharusnya berusaha untuk mengendalikan variabel.


Pembaruan: Saya perhatikan bahwa jawaban saya tidak setuju dengan jawaban yang diberikan oleh Carlos . Mungkin kita tidak setuju tentang apa yang disebut "ahli statistik / ekonometrik hanya dengan pelatihan reguler". Siapa pun yang saya sebut "ahli statistik" biasanya memiliki setidaknya pendidikan tingkat pascasarjana, dan biasanya memiliki pelatihan / pengalaman profesional yang substansial. (Misalnya, di Australia, persyaratan untuk menjadi "Ahli Statistik Terakreditasi" dengan badan profesional nasional kami memerlukan minimal empat tahun pengalaman setelah gelar kehormatan, atau enam tahun pengalaman setelah gelar sarjana reguler.) Dalam kasus apa pun, seorang siswa belajar statistik bukanlah ahli statistik .

Saya perhatikan bahwa sebagai bukti dugaan kurangnya pemahaman kausalitas oleh ahli statistik, jawaban Carlos menunjuk ke beberapa pertanyaan di CV.SE yang menanyakan tentang kausalitas dalam regresi. Dalam setiap kasus ini, pertanyaan diajukan oleh seseorang yang jelas-jelas seorang pemula (bukan ahli statistik) dan jawaban yang diberikan oleh Carlos dan lainnya (yang mencerminkan penjelasan yang benar) adalah jawaban yang sangat dipilih. Memang, dalam beberapa kasus Carlos telah memberikan penjelasan rinci tentang kausalitas dan jawabannya adalah yang paling banyak dipilih. Ini tentu membuktikan bahwa ahli statistik memahami kausalitas .

Beberapa poster lain menunjukkan bahwa analisis kausalitas sering tidak dimasukkan dalam kurikulum statistik. Itu benar, dan itu sangat memalukan, tetapi kebanyakan ahli statistik profesional bukanlah lulusan baru, dan mereka telah belajar jauh melampaui apa yang termasuk dalam program master standar. Sekali lagi, dalam hal ini, tampaknya saya memiliki pandangan yang lebih tinggi tentang tingkat rata-rata pengetahuan ahli statistik daripada poster lainnya.

Pasang kembali Monica
sumber
12
Saya adalah seorang non-ahli statistik yang pelatihan formalnya di bidang statistik oleh non-ahli statistik di bidang yang sama, dan saya mengajar dan meneliti dengan orang-orang non-ahli statistik yang menerapkan statistik. Saya dapat meyakinkan Anda bahwa prinsip bahwa (misalnya) korelasi bukanlah sebab-akibat, dan merupakan, mantra berulang di bidang saya. Memang saya tidak menemukan orang yang tidak bisa melihat bahwa korelasi antara curah hujan dan hasil gandum tidak semua yang perlu dikatakan tentang hubungan antara mereka dan proses yang mendasarinya. Biasanya, dalam pengalaman saya, non-ahli statistik juga sudah memikirkan ini sejak lama.
Nick Cox
8
Sebagai seorang ahli epidemiologi, saya semakin terganggu dengan mantra ini. Seperti yang dikatakan @NickCox, ini adalah sesuatu yang bahkan non-ilmuwan pahami. Masalah yang saya miliki adalah ketika semua orang mengikuti "korelasi tidak berarti sebab-akibat!" setiap kali studi observasional (studi kasus-kontrol, katakanlah) diterbitkan. Ya, korelasi tidak berarti sebab-akibat, tetapi para peneliti biasanya cukup menyadari hal itu dan akan melakukan segalanya untuk merancang dan menganalisis studi sedemikian rupa sehingga interpretasi kausal setidaknya masuk akal.
COOLSerdash
5
@Nick Cox: Saya telah mengedit untuk lebih akurat menyatakan bahwa ada banyak non-ahli statistik yang memahami ini dengan baik. Bukan maksud saya untuk menyebarkan dispersi atas profesi lain - hanya untuk menekankan bahwa masalah ini dipahami dengan sangat baik oleh para ahli statistik.
Pasang kembali Monica
7
@NickCox Ada banyak kontribusi Pearl tentang kausalitas daripada "korelasi bukan sebab-akibat". Saya dengan Carlos di sini. Ada cukup banyak untuk dipelajari tentang kausalitas sehingga harus menjadi keseluruhan. Sejauh yang saya tahu, sebagian besar departemen statistik tidak menawarkan kursus seperti itu.
Neil G
12
@ Ben: Pearl tidak menuduh ahli statistik membingungkan korelasi dan sebab-akibat. Dia menuduh mereka sebagian besar menghindari alasan sebab akibat. Saya setuju dengan Anda bahwa nadanya sombong, tapi saya pikir dia ada benarnya.
mitchus
11

regresi linier sederhana pada dasarnya adalah model kausal

Berikut adalah contoh yang saya kemukakan di mana model regresi linier gagal menjadi penyebab. Katakanlah apriori bahwa suatu obat diminum pada waktu 0 ( t = 0 ) dan itu tidak berpengaruh pada laju serangan jantung pada t = 1 . Serangan jantung pada t = 1 memengaruhi serangan jantung pada t = 2 (yaitu kerusakan sebelumnya membuat jantung lebih rentan terhadap kerusakan). Kelangsungan hidup pada t = 3 hanya tergantung pada apakah orang memiliki serangan jantung pada t = 2 - serangan jantung pada t = 1 secara realistis akan mempengaruhi kelangsungan hidup pada t = 3 , tetapi kita tidak akan memiliki panah, demi kesederhanaan.

Inilah legenda:

Legenda DAG

Inilah grafik kausal sejati: bias collider

Mari kita berpura-pura tidak tahu bahwa serangan jantung pada t = 1 tidak tergantung pada penggunaan obat pada t = 0 sehingga kami membangun model regresi linier sederhana untuk memperkirakan efek obat terhadap serangan jantung pada t = 0 . Di sini prediktor kita adalah Obat t = 0 dan variabel hasil kita adalah Serangan Jantung t = 1 . Satu-satunya data yang kami miliki adalah orang yang bertahan pada t = 3 , jadi kami akan menjalankan regresi kami pada data itu.

Inilah interval kredibel Bayesian 95% untuk koefisien Obat t = 0 : Interval kredibel 95%, bias collider

Sebagian besar probabilitas yang dapat kita lihat lebih besar dari 0, jadi sepertinya ada efeknya! Namun, kita tahu apriori bahwa ada 0 efek. Matematika sebab-akibat yang dikembangkan oleh Judea Pearl dan yang lainnya membuatnya lebih mudah untuk melihat bahwa akan ada bias dalam contoh ini (karena pengkondisian pada keturunan collider). Pekerjaan Judea menyiratkan bahwa dalam situasi ini, kita harus menggunakan set data lengkap (yaitu jangan melihat orang-orang yang hanya selamat), yang akan menghapus jalur bias:

tidak ada bias

Inilah 95% Kredibel Interval ketika melihat kumpulan data lengkap (yaitu tidak mengkondisikan pada mereka yang selamat).

Interval kredibel 95%, tidak ada bias.

Ini berpusat padat pada 0, yang pada dasarnya tidak menunjukkan hubungan sama sekali.

Dalam contoh kehidupan nyata, berbagai hal mungkin tidak sesederhana itu. Mungkin ada lebih banyak variabel yang dapat menyebabkan bias sistematis (perancu, bias seleksi, dll.). Apa yang harus disesuaikan dalam analisis telah dirumuskan oleh Pearl; algoritma dapat menyarankan variabel mana yang harus disesuaikan, atau bahkan memberi tahu kami ketika penyesuaian tidak cukup untuk menghilangkan bias sistematis. Dengan teori formal ini berlaku, kita tidak perlu menghabiskan banyak waktu untuk berdebat tentang apa yang harus disesuaikan dan apa yang tidak untuk disesuaikan; kita dapat dengan cepat mencapai kesimpulan apakah hasil kita baik atau tidak. Kita dapat merancang eksperimen kita dengan lebih baik, kita dapat menganalisis data pengamatan dengan lebih mudah.

Berikut adalah kursus online yang tersedia secara gratis di Causal DAGs oleh Miguel Hernàn. Ini memiliki banyak studi kasus kehidupan nyata di mana profesor / ilmuwan / ahli statistik telah datang ke kesimpulan yang berlawanan tentang pertanyaan yang dihadapi. Beberapa dari mereka mungkin tampak seperti paradoks. Namun, Anda dapat dengan mudah menyelesaikannya melalui d-separation dan backdoor-kriteria Judea Pearl .

Untuk referensi, inilah kode untuk proses menghasilkan data dan kode untuk interval yang kredibel seperti ditunjukkan di atas:

import numpy as np
import pandas as pd
import statsmodels as sm
import pymc3 as pm
from sklearn.linear_model import LinearRegression

%matplotlib inline

# notice that taking the drug is independent of heart attack at time 1.
# heart_attack_time_1 doesn't "listen" to take_drug_t_0
take_drug_t_0 = np.random.binomial(n=1, p=0.7, size=10000)
heart_attack_time_1 = np.random.binomial(n=1, p=0.4, size=10000)

proba_heart_attack_time_2 = []

# heart_attack_time_1 increases the probability of heart_attack_time_2. Let's say
# it's because it weakens the heart and makes it more susceptible to further
# injuries
# 
# Yet, take_drug_t_0 decreases the probability of heart attacks happening at
# time 2
for drug_t_0, heart_attack_t_1 in zip(take_drug_t_0, heart_attack_time_1):
    if drug_t_0 == 0 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 1 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 0 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.5)
    elif drug_t_0 == 1 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.05)

heart_attack_time_2 = np.random.binomial(
    n=2, p=proba_heart_attack_time_2, size=10000
)

# people who've had a heart attack at time 2 are more likely to die by time 3

proba_survive_t_3 = []
for heart_attack_t_2 in heart_attack_time_2:
    if heart_attack_t_2 == 0:
        proba_survive_t_3.append(0.95)
    else:
        proba_survive_t_3.append(0.6)

survive_t_3 = np.random.binomial(
    n=1, p=proba_survive_t_3, size=10000
)

df = pd.DataFrame(
    {
        'survive_t_3': survive_t_3,
        'take_drug_t_0': take_drug_t_0,
        'heart_attack_time_1': heart_attack_time_1,
        'heart_attack_time_2': heart_attack_time_2
    }
)

# we only have access to data of the people who survived
survive_t_3_data = df[
    df['survive_t_3'] == 1
]

survive_t_3_X = survive_t_3_data[['take_drug_t_0']]

lr = LinearRegression()
lr.fit(survive_t_3_X, survive_t_3_data['heart_attack_time_1'])
lr.coef_

with pm.Model() as collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * survive_t_3_data['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=survive_t_3_data['heart_attack_time_1']
    )

    collider_bias_normal_trace = pm.sample(2000, tune=1000)

pm.plot_posterior(collider_bias_normal_trace['take_drug_t_0'])

with pm.Model() as no_collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * df['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=df['heart_attack_time_1']
    )

    no_collider_bias_normal_trace = pm.sample(2000, tune=2000)

pm.plot_posterior(no_collider_bias_normal_trace['take_drug_t_0'])
edderic
sumber
4

Dua makalah, yang kedua adalah karya klasik, yang membantu (saya pikir) memberi penerangan tambahan pada poin-poin Judea dan topik ini secara lebih umum. Ini berasal dari seseorang yang telah menggunakan SEM (yang merupakan korelasi dan regresi) berulang kali dan beresonansi dengan kritiknya:

https://www.sciencedirect.com/science/article/pii/S0022103111001466

http://psycnet.apa.org/record/1973-20037-001

Pada dasarnya makalah-makalah ini menjelaskan mengapa model korelasional (regresi) biasanya tidak dapat dianggap menyiratkan inferensi kausal yang kuat. Setiap pola asosiasi dapat cocok dengan matriks kovarians yang diberikan (yaitu, non spesifikasi arah dan atau hubungan antara variabel). Oleh karena itu kebutuhan untuk hal-hal seperti desain eksperimental, proposisi kontrafaktual, dll. Ini bahkan berlaku ketika seseorang memiliki struktur temporal untuk data mereka di mana penyebab diduga terjadi pada waktu sebelum efek diduga.

Jhaltiga68
sumber
1

"... karena kita pada dasarnya mengasumsikan bahwa satu variabel adalah penyebabnya dan yang lain adalah efeknya (maka korelasi adalah pendekatan yang berbeda dari pemodelan regresi) ..."

Pemodelan regresi paling jelas TIDAK membuat asumsi ini.

"... dan menguji apakah hubungan sebab akibat ini menjelaskan pola yang diamati."

Jika Anda mengasumsikan kausalitas dan memvalidasinya terhadap pengamatan, Anda melakukan pemodelan SEM, atau apa yang disebut Pearl pemodelan SCM. Apakah Anda ingin memanggil bagian dari domain statistik itu masih bisa diperdebatkan. Tapi saya pikir sebagian besar tidak akan menyebutnya statistik klasik.

Daripada menggunakan statistik secara umum, saya percaya Pearl hanya mengkritik keengganan ahli statistik untuk mengatasi semantik kausal. Dia menganggap ini masalah serius karena apa yang oleh Carl Sagan disebut sebagai fenomena "masuk dan keluar", di mana Anda meninggalkan sebuah studi yang mengatakan "konsumsi daging 'sangat terkait' dengan peningkatan libido, p <0,05" dan kemudian membungkuk mengetahui Sepenuhnya dua hasil akan dihubungkan secara kausal dalam pikiran publik.

Hitung Nol
sumber