Paradoks Simpson adalah teka-teki klasik yang dibahas dalam kursus statistik pengantar di seluruh dunia. Namun, kursus saya puas dengan hanya mencatat bahwa ada masalah dan tidak memberikan solusi. Saya ingin tahu bagaimana menyelesaikan paradoks. Artinya, ketika dihadapkan dengan paradoks Simpson, di mana dua pilihan yang berbeda tampaknya bersaing untuk menjadi pilihan terbaik tergantung pada bagaimana data dipartisi, pilihan mana yang harus dipilih?
Untuk menyelesaikan masalah ini, mari kita perhatikan contoh pertama yang diberikan dalam artikel Wikipedia yang relevan . Ini didasarkan pada penelitian nyata tentang pengobatan batu ginjal.
Misalkan saya seorang dokter dan tes mengungkapkan bahwa seorang pasien memiliki batu ginjal. Dengan hanya menggunakan informasi yang disediakan dalam tabel, saya ingin menentukan apakah saya harus mengadopsi pengobatan A atau pengobatan B. Tampaknya jika saya mengetahui ukuran batu, maka kita harus memilih perawatan A. Tetapi jika kita tidak melakukannya, maka kita harus memilih perawatan B.
Tetapi pertimbangkan cara lain yang masuk akal untuk sampai pada jawaban. Jika batu itu besar, kita harus memilih A, dan jika itu kecil, kita harus memilih lagi A. Jadi, bahkan jika kita tidak tahu ukuran batu, dengan metode kasus, kita melihat bahwa kita harus memilih A. Ini bertentangan dengan alasan kami sebelumnya.
Jadi: Seorang pasien masuk ke kantor saya. Sebuah tes mengungkapkan mereka memiliki batu ginjal tetapi tidak memberi saya informasi tentang ukurannya. Perawatan mana yang saya rekomendasikan? Apakah ada resolusi yang diterima untuk masalah ini?
Wikipedia mengisyaratkan resolusi menggunakan "jaringan Bayesian kausal" dan tes "pintu belakang", tetapi saya tidak tahu apa ini.
sumber
Jawaban:
Dalam pertanyaan Anda, Anda menyatakan bahwa Anda tidak tahu apa itu "jaringan Bayesian kausal" dan "tes pintu belakang".
Misalkan Anda memiliki jaringan Bayesian kausal. Yaitu, grafik asiklik terarah yang simpulnya mewakili proposisi dan ujung terarahnya mewakili hubungan sebab akibat yang potensial. Anda mungkin memiliki banyak jaringan seperti itu untuk setiap hipotesis Anda. Ada tiga cara untuk membuat argumen yang meyakinkan tentang kekuatan atau keberadaan tepi .A→?B
Cara termudah adalah intervensi. Inilah yang disarankan oleh jawaban lain ketika mereka mengatakan bahwa "pengacakan yang tepat" akan memperbaiki masalah. Anda secara acak memaksa memiliki nilai yang berbeda dan Anda mengukur B . Jika Anda bisa melakukan itu, Anda sudah selesai, tetapi Anda tidak selalu bisa melakukannya. Dalam contoh Anda, mungkin tidak etis untuk memberi orang perawatan yang tidak efektif untuk penyakit mematikan, atau mereka mungkin memiliki beberapa pendapat dalam pengobatan mereka, misalnya, mereka dapat memilih yang kurang keras (pengobatan B) ketika batu ginjal mereka kecil dan kurang menyakitkan.A B
Cara kedua adalah metode pintu depan. Anda ingin menunjukkan bahwa bertindak atas B melalui C , yaitu, A → C → B . Jika Anda menganggap bahwa C berpotensi disebabkan oleh A tetapi tidak memiliki penyebab lain, dan Anda dapat mengukur bahwa C berkorelasi dengan A , dan B berkorelasi dengan C , maka Anda dapat menyimpulkan bukti harus mengalir melalui C . Contoh asli: A merokok, B adalah kanker, CA B C A→C→B C A C A B C C A B C adalah akumulasi tar. Tar hanya dapat berasal dari merokok, dan itu berkorelasi dengan merokok dan kanker. Oleh karena itu, merokok menyebabkan kanker melalui tar (walaupun mungkin ada jalur penyebab lain yang mengurangi efek ini).
Cara ketiga adalah metode pintu belakang. Anda ingin menunjukkan bahwa dan B tidak berkorelasi karena "pintu belakang", misalnya penyebab umum, yaitu, A ← D → B . Karena Anda telah mengasumsikan model kausal, Anda hanya perlu untuk memblokir semua jalan (dengan mengamati variabel dan pendingin pada mereka) bahwa bukti dapat mengalir naik dari A dan turun ke B . Agak sulit untuk memblokir jalur ini, tetapi Pearl memberikan algoritma yang jelas yang memungkinkan Anda mengetahui variabel mana yang harus Anda amati untuk memblokir jalur ini.A B A←D→B A B
Gung benar bahwa dengan pengacakan yang baik, perancu tidak akan masalah. Karena kita mengasumsikan bahwa campur tangan pada penyebab hipotetis (pengobatan) tidak diperbolehkan, penyebab umum antara penyebab hipotetis (pengobatan) dan efek (kelangsungan hidup), seperti usia atau ukuran batu ginjal akan menjadi perancu. Solusinya adalah mengambil pengukuran yang tepat untuk memblokir semua pintu belakang. Untuk bacaan lebih lanjut, lihat:
Mutiara, Yudea. "Diagram kausal untuk penelitian empiris." Biometrika 82,4 (1995): 669-688.
Untuk menerapkan ini pada masalah Anda, mari kita menggambar grafik kausal terlebih dahulu. (Sebelum pengobatan) ukuran batu ginjalX dan jenis pengobatan keduanya penyebab keberhasilan Z . X mungkin menjadi penyebab Y jika dokter lain menugaskan tratment berdasarkan ukuran batu ginjal. Jelas tidak ada hubungan kausal antara lain X , Y , dan Z . Y datang setelah X sehingga tidak bisa menjadi penyebabnya. Demikian pula Z datang setelah X dan Y .Y Z X Y X Y Z Y X Z X Y
Karena adalah penyebab umum, itu harus diukur. Terserah eksperimen untuk menentukan semesta variabel dan hubungan sebab akibat potensial . Untuk setiap percobaan, percobaan mengukur "variabel pintu belakang" yang diperlukan dan kemudian menghitung distribusi probabilitas marginal dari keberhasilan pengobatan untuk setiap konfigurasi variabel. Untuk pasien baru, Anda mengukur variabel dan mengikuti perawatan yang ditunjukkan oleh distribusi marginal. Jika Anda tidak dapat mengukur semuanya atau Anda tidak memiliki banyak data tetapi mengetahui sesuatu tentang arsitektur hubungan, Anda dapat melakukan "penyebaran kepercayaan" (inferensi Bayesian) pada jaringan.X
sumber
Saya punya jawaban sebelumnya yang membahas paradoks Simpson di sini: paradoks Simpson Dasar . Mungkin membantu Anda untuk membacanya agar lebih memahami fenomena tersebut.
Singkatnya, paradoks Simpson terjadi karena perancu. Dalam contoh Anda, perawatannya dikacaukan* dengan jenis batu ginjal yang dimiliki setiap pasien. Kita tahu dari tabel lengkap hasil yang disajikan bahwa perawatan A selalu lebih baik. Dengan demikian, seorang dokter harus memilih pengobatan A. Satu-satunya alasan pengobatan B terlihat lebih baik secara agregat adalah bahwa itu diberikan lebih sering kepada pasien dengan kondisi yang kurang parah, sedangkan pengobatan A diberikan kepada pasien dengan kondisi yang lebih parah. Meskipun demikian, pengobatan A dilakukan lebih baik dengan kedua kondisi. Sebagai dokter, Anda tidak peduli dengan kenyataan bahwa di masa lalu perawatan yang lebih buruk diberikan kepada pasien yang memiliki kondisi yang lebih rendah, Anda hanya peduli pada pasien sebelum Anda, dan jika Anda ingin pasien itu membaik, Anda akan memberikan mereka dengan perawatan terbaik yang tersedia.
* Perhatikan bahwa titik menjalankan eksperimen, dan mengacak perawatan, adalah untuk menciptakan situasi di mana perawatan tidak dibingungkan. Jika penelitian yang dimaksud adalah eksperimen, saya akan mengatakan bahwa proses pengacakan gagal untuk membuat kelompok yang adil, meskipun itu mungkin merupakan penelitian observasional - saya tidak tahu.
sumber
Artikel bagus dari Judea Pearl yang diterbitkan pada tahun 2013 ini membahas dengan tepat masalah pilihan mana yang harus dipilih ketika berhadapan dengan paradoks Simpson:
Memahami paradoks Simpson (PDF)
sumber
Apakah Anda ingin solusi untuk satu contoh atau paradoks secara umum? Tidak ada untuk yang terakhir karena paradoks dapat muncul karena lebih dari satu alasan dan perlu dinilai berdasarkan kasus per kasus.
Paradoks ini terutama bermasalah ketika melaporkan data ringkasan dan sangat penting dalam melatih individu bagaimana menganalisis dan melaporkan data. Kami tidak ingin peneliti melaporkan statistik ringkasan yang menyembunyikan atau mengaburkan pola dalam data atau analis data gagal mengenali apa pola sebenarnya dalam data tersebut. Tidak ada solusi yang diberikan karena tidak ada satu solusi.
Dalam kasus khusus ini, dokter dengan meja jelas akan selalu memilih A dan mengabaikan garis ringkasan. Tidak ada bedanya apakah mereka mengetahui ukuran batu itu atau tidak. Jika seseorang menganalisis data hanya melaporkan garis ringkasan yang disajikan untuk A dan B maka akan ada masalah karena data yang diterima dokter tidak akan mencerminkan kenyataan. Dalam hal ini mereka mungkin seharusnya juga meninggalkan baris terakhir dari tabel karena itu hanya benar di bawah satu interpretasi tentang apa yang seharusnya statistik ringkasan (ada dua kemungkinan). Membiarkan pembaca untuk menginterpretasikan sel-sel individual umumnya akan menghasilkan hasil yang benar.
(Komentar berlebihan Anda sepertinya menyarankan Anda paling khawatir tentang masalah N yang tidak sama dan Simpson lebih luas dari itu jadi saya enggan membahas masalah yang tidak sama N lebih jauh. Mungkin mengajukan pertanyaan yang lebih bertarget. Selanjutnya, Anda tampaknya berpikir saya Saya menganjurkan kesimpulan normalisasi. Saya tidak. Saya berpendapat bahwa Anda perlu mempertimbangkan bahwa statistik ringkasan relatif dipilih secara sewenang-wenang dan bahwa seleksi oleh beberapa analis memunculkan paradoks. Saya selanjutnya berpendapat bahwa Anda melihat sel-sel Anda memiliki.)
sumber
Satu "take away" penting adalah bahwa jika penugasan pengobatan tidak proporsional antara subkelompok, seseorang harus memperhitungkan subkelompok ketika menganalisis data.
"Pengambilan" penting kedua adalah bahwa studi observasional sangat rentan untuk memberikan jawaban yang salah karena keberadaan paradoks Simpson yang tidak diketahui. Itu karena kita tidak dapat memperbaiki fakta bahwa Pengobatan A cenderung diberikan pada kasus-kasus yang lebih sulit jika kita tidak tahu itu benar.
Dalam studi acak yang benar kita dapat (1) mengalokasikan pengobatan secara acak sehingga memberikan "keuntungan tidak adil" untuk satu pengobatan sangat tidak mungkin dan secara otomatis akan diurus dalam analisis data atau, (2) jika ada alasan penting untuk melakukannya, alokasikan perawatan secara acak tetapi tidak proporsional berdasarkan pada beberapa masalah yang diketahui dan kemudian pertimbangkan masalah tersebut selama analisis.
sumber