Bagaimana cara menyelesaikan paradoks Simpson?

35

Paradoks Simpson adalah teka-teki klasik yang dibahas dalam kursus statistik pengantar di seluruh dunia. Namun, kursus saya puas dengan hanya mencatat bahwa ada masalah dan tidak memberikan solusi. Saya ingin tahu bagaimana menyelesaikan paradoks. Artinya, ketika dihadapkan dengan paradoks Simpson, di mana dua pilihan yang berbeda tampaknya bersaing untuk menjadi pilihan terbaik tergantung pada bagaimana data dipartisi, pilihan mana yang harus dipilih?

Untuk menyelesaikan masalah ini, mari kita perhatikan contoh pertama yang diberikan dalam artikel Wikipedia yang relevan . Ini didasarkan pada penelitian nyata tentang pengobatan batu ginjal.

masukkan deskripsi gambar di sini

Misalkan saya seorang dokter dan tes mengungkapkan bahwa seorang pasien memiliki batu ginjal. Dengan hanya menggunakan informasi yang disediakan dalam tabel, saya ingin menentukan apakah saya harus mengadopsi pengobatan A atau pengobatan B. Tampaknya jika saya mengetahui ukuran batu, maka kita harus memilih perawatan A. Tetapi jika kita tidak melakukannya, maka kita harus memilih perawatan B.

Tetapi pertimbangkan cara lain yang masuk akal untuk sampai pada jawaban. Jika batu itu besar, kita harus memilih A, dan jika itu kecil, kita harus memilih lagi A. Jadi, bahkan jika kita tidak tahu ukuran batu, dengan metode kasus, kita melihat bahwa kita harus memilih A. Ini bertentangan dengan alasan kami sebelumnya.

Jadi: Seorang pasien masuk ke kantor saya. Sebuah tes mengungkapkan mereka memiliki batu ginjal tetapi tidak memberi saya informasi tentang ukurannya. Perawatan mana yang saya rekomendasikan? Apakah ada resolusi yang diterima untuk masalah ini?

Wikipedia mengisyaratkan resolusi menggunakan "jaringan Bayesian kausal" dan tes "pintu belakang", tetapi saya tidak tahu apa ini.

kentang
sumber
2
The Paradox Dasar Simpson link yang disebutkan di atas adalah contoh dari data pengamatan. Kami tidak dapat secara ambigu memutuskan antara rumah sakit karena pasien mungkin tidak secara acak ditugaskan ke rumah sakit dan pertanyaan yang diajukan tidak memberi kami cara untuk mengetahui apakah, misalnya, satu rumah sakit cenderung mendapatkan pasien risiko yang lebih tinggi. Memecah hasil menjadi operasi AE tidak mengatasi masalah itu.
Emil Friedman
@EmilFriedman Saya setuju memang benar bahwa kita dapat dengan jelas menentukan antar rumah sakit. Tetapi tentu saja data mendukung satu sama lain. (Tidak benar bahwa data tidak mengajarkan apa pun tentang kualitas rumah sakit kepada kami.)
Potato

Jawaban:

14

Dalam pertanyaan Anda, Anda menyatakan bahwa Anda tidak tahu apa itu "jaringan Bayesian kausal" dan "tes pintu belakang".

Misalkan Anda memiliki jaringan Bayesian kausal. Yaitu, grafik asiklik terarah yang simpulnya mewakili proposisi dan ujung terarahnya mewakili hubungan sebab akibat yang potensial. Anda mungkin memiliki banyak jaringan seperti itu untuk setiap hipotesis Anda. Ada tiga cara untuk membuat argumen yang meyakinkan tentang kekuatan atau keberadaan tepi .A?B

Cara termudah adalah intervensi. Inilah yang disarankan oleh jawaban lain ketika mereka mengatakan bahwa "pengacakan yang tepat" akan memperbaiki masalah. Anda secara acak memaksa memiliki nilai yang berbeda dan Anda mengukur B . Jika Anda bisa melakukan itu, Anda sudah selesai, tetapi Anda tidak selalu bisa melakukannya. Dalam contoh Anda, mungkin tidak etis untuk memberi orang perawatan yang tidak efektif untuk penyakit mematikan, atau mereka mungkin memiliki beberapa pendapat dalam pengobatan mereka, misalnya, mereka dapat memilih yang kurang keras (pengobatan B) ketika batu ginjal mereka kecil dan kurang menyakitkan.AB

Cara kedua adalah metode pintu depan. Anda ingin menunjukkan bahwa bertindak atas B melalui C , yaitu, A C B . Jika Anda menganggap bahwa C berpotensi disebabkan oleh A tetapi tidak memiliki penyebab lain, dan Anda dapat mengukur bahwa C berkorelasi dengan A , dan B berkorelasi dengan C , maka Anda dapat menyimpulkan bukti harus mengalir melalui C . Contoh asli: A merokok, B adalah kanker, CABCACBCACABCCABCadalah akumulasi tar. Tar hanya dapat berasal dari merokok, dan itu berkorelasi dengan merokok dan kanker. Oleh karena itu, merokok menyebabkan kanker melalui tar (walaupun mungkin ada jalur penyebab lain yang mengurangi efek ini).

Cara ketiga adalah metode pintu belakang. Anda ingin menunjukkan bahwa dan B tidak berkorelasi karena "pintu belakang", misalnya penyebab umum, yaitu, A D B . Karena Anda telah mengasumsikan model kausal, Anda hanya perlu untuk memblokir semua jalan (dengan mengamati variabel dan pendingin pada mereka) bahwa bukti dapat mengalir naik dari A dan turun ke B . Agak sulit untuk memblokir jalur ini, tetapi Pearl memberikan algoritma yang jelas yang memungkinkan Anda mengetahui variabel mana yang harus Anda amati untuk memblokir jalur ini.SEBUAHBADBAB

Gung benar bahwa dengan pengacakan yang baik, perancu tidak akan masalah. Karena kita mengasumsikan bahwa campur tangan pada penyebab hipotetis (pengobatan) tidak diperbolehkan, penyebab umum antara penyebab hipotetis (pengobatan) dan efek (kelangsungan hidup), seperti usia atau ukuran batu ginjal akan menjadi perancu. Solusinya adalah mengambil pengukuran yang tepat untuk memblokir semua pintu belakang. Untuk bacaan lebih lanjut, lihat:

Mutiara, Yudea. "Diagram kausal untuk penelitian empiris." Biometrika 82,4 (1995): 669-688.


Untuk menerapkan ini pada masalah Anda, mari kita menggambar grafik kausal terlebih dahulu. (Sebelum pengobatan) ukuran batu ginjal X dan jenis pengobatan keduanya penyebab keberhasilan Z . X mungkin menjadi penyebab Y jika dokter lain menugaskan tratment berdasarkan ukuran batu ginjal. Jelas tidak ada hubungan kausal antara lain X , Y , dan Z . Y datang setelah X sehingga tidak bisa menjadi penyebabnya. Demikian pula Z datang setelah X dan Y .YZXYXYZYXZXY

Karena adalah penyebab umum, itu harus diukur. Terserah eksperimen untuk menentukan semesta variabel dan hubungan sebab akibat potensial . Untuk setiap percobaan, percobaan mengukur "variabel pintu belakang" yang diperlukan dan kemudian menghitung distribusi probabilitas marginal dari keberhasilan pengobatan untuk setiap konfigurasi variabel. Untuk pasien baru, Anda mengukur variabel dan mengikuti perawatan yang ditunjukkan oleh distribusi marginal. Jika Anda tidak dapat mengukur semuanya atau Anda tidak memiliki banyak data tetapi mengetahui sesuatu tentang arsitektur hubungan, Anda dapat melakukan "penyebaran kepercayaan" (inferensi Bayesian) pada jaringan.X

Neil G
sumber
2
Jawaban yang sangat bagus Bisakah Anda secara singkat mengatakan bagaimana menerapkan kerangka kerja ini pada contoh yang saya berikan dalam pertanyaan? Apakah itu memberikan jawaban yang diharapkan (A)?
Kentang
Terima kasih! Apakah Anda tahu pengantar singkat dan bagus tentang "penyebaran kepercayaan"? Saya tertarik belajar lebih banyak.
Potato
@ Potato: Saya mempelajarinya dari bukunya "Penalaran Probabilistik dalam Sistem Cerdas". Ada banyak tutorial online, tetapi sulit untuk menemukan satu yang membangun intuisi daripada hanya menyajikan algoritma.
Neil G
22

Saya punya jawaban sebelumnya yang membahas paradoks Simpson di sini: paradoks Simpson Dasar . Mungkin membantu Anda untuk membacanya agar lebih memahami fenomena tersebut.

Singkatnya, paradoks Simpson terjadi karena perancu. Dalam contoh Anda, perawatannya dikacaukan* dengan jenis batu ginjal yang dimiliki setiap pasien. Kita tahu dari tabel lengkap hasil yang disajikan bahwa perawatan A selalu lebih baik. Dengan demikian, seorang dokter harus memilih pengobatan A. Satu-satunya alasan pengobatan B terlihat lebih baik secara agregat adalah bahwa itu diberikan lebih sering kepada pasien dengan kondisi yang kurang parah, sedangkan pengobatan A diberikan kepada pasien dengan kondisi yang lebih parah. Meskipun demikian, pengobatan A dilakukan lebih baik dengan kedua kondisi. Sebagai dokter, Anda tidak peduli dengan kenyataan bahwa di masa lalu perawatan yang lebih buruk diberikan kepada pasien yang memiliki kondisi yang lebih rendah, Anda hanya peduli pada pasien sebelum Anda, dan jika Anda ingin pasien itu membaik, Anda akan memberikan mereka dengan perawatan terbaik yang tersedia.

* Perhatikan bahwa titik menjalankan eksperimen, dan mengacak perawatan, adalah untuk menciptakan situasi di mana perawatan tidak dibingungkan. Jika penelitian yang dimaksud adalah eksperimen, saya akan mengatakan bahwa proses pengacakan gagal untuk membuat kelompok yang adil, meskipun itu mungkin merupakan penelitian observasional - saya tidak tahu.

gung - Reinstate Monica
sumber
Anda memilih pendekatan normalisasi yang juga disarankan oleh jawaban lain. Saya menemukan ini bermasalah. Dimungkinkan untuk memperlihatkan dua partisi dari set data yang sama yang memberikan kesimpulan berbeda ketika dinormalisasi. Lihat tautan saya dan kutip sebagai jawaban untuk jawaban lainnya.
Potato
2
Saya belum membaca artikel Stanford. Namun, saya tidak menemukan alasan dalam kutipan yang menarik. Mungkin dalam beberapa populasi, pengobatan B lebih baik daripada pengobatan A. Ini tidak masalah. Jika itu berlaku untuk beberapa populasi, itu hanya karena karakteristik populasi dikacaukan. Anda dihadapkan dengan pasien (bukan populasi), & pasien itu lebih mungkin membaik dalam pengobatan. Tanpa memperhatikan apakah pasien tersebut menderita batu ginjal besar atau kecil. Anda harus memilih perawatan A.
gung - Reinstate Monica
2
Apakah partisi muda / lama dikacaukan? Jika tidak, ini tidak akan menjadi masalah. Jika demikian, maka kami akan menggunakan informasi lengkap untuk membuat keputusan terbaik. Berdasarkan apa yang kita ketahui saat ini, 'pengobatan B terlihat paling baik secara agregat' adalah herring merah. Ini tampaknya hanya terjadi karena pengganggu, tetapi itu adalah ilusi (statistik).
gung - Reinstate Monica
2
Anda akan memiliki meja yang lebih rumit yang memperhitungkan ukuran & usia batu ginjal. Anda dapat melihat contoh kasus bias gender Berkeley di halaman Wikipedia.
gung - Reinstate Monica
1
Benci memberikan komentar selama ini tapi ... Saya tidak akan mengatakan bahwa paradoks selalu karena perancu. Ini disebabkan oleh hubungan antar variabel yang dimiliki oleh variabel perancu, tapi saya tidak akan menyebut semua variabel yang mengarah ke simpson paradox simpounding (misalnya berat 30 tahun dan 90 tahun) x jumlah keripik kentang yang dikonsumsi per anum - karena 90 tahun lebih muda untuk memulai dengan efek utama dari chip mungkin negatif tanpa interaksi termasuk. Saya tidak akan menyebut usia sebagai pengganggu (lihat gambar pertama di halaman Wikipedia.)
John
4

Apakah Anda ingin solusi untuk satu contoh atau paradoks secara umum? Tidak ada untuk yang terakhir karena paradoks dapat muncul karena lebih dari satu alasan dan perlu dinilai berdasarkan kasus per kasus.

Paradoks ini terutama bermasalah ketika melaporkan data ringkasan dan sangat penting dalam melatih individu bagaimana menganalisis dan melaporkan data. Kami tidak ingin peneliti melaporkan statistik ringkasan yang menyembunyikan atau mengaburkan pola dalam data atau analis data gagal mengenali apa pola sebenarnya dalam data tersebut. Tidak ada solusi yang diberikan karena tidak ada satu solusi.

Dalam kasus khusus ini, dokter dengan meja jelas akan selalu memilih A dan mengabaikan garis ringkasan. Tidak ada bedanya apakah mereka mengetahui ukuran batu itu atau tidak. Jika seseorang menganalisis data hanya melaporkan garis ringkasan yang disajikan untuk A dan B maka akan ada masalah karena data yang diterima dokter tidak akan mencerminkan kenyataan. Dalam hal ini mereka mungkin seharusnya juga meninggalkan baris terakhir dari tabel karena itu hanya benar di bawah satu interpretasi tentang apa yang seharusnya statistik ringkasan (ada dua kemungkinan). Membiarkan pembaca untuk menginterpretasikan sel-sel individual umumnya akan menghasilkan hasil yang benar.

(Komentar berlebihan Anda sepertinya menyarankan Anda paling khawatir tentang masalah N yang tidak sama dan Simpson lebih luas dari itu jadi saya enggan membahas masalah yang tidak sama N lebih jauh. Mungkin mengajukan pertanyaan yang lebih bertarget. Selanjutnya, Anda tampaknya berpikir saya Saya menganjurkan kesimpulan normalisasi. Saya tidak. Saya berpendapat bahwa Anda perlu mempertimbangkan bahwa statistik ringkasan relatif dipilih secara sewenang-wenang dan bahwa seleksi oleh beberapa analis memunculkan paradoks. Saya selanjutnya berpendapat bahwa Anda melihat sel-sel Anda memiliki.)

John
sumber
Anda mengklaim kami harus mengabaikan garis ringkasan. Mengapa ini "jelas"?
Potato
Sudah jelas karena perawatan A lebih baik dengan batu besar atau kecil dan B hanya keluar karena N tidak sama. Lebih jauh, baris terakhir adalah interpretasi bukan Injil. Setidaknya ada dua cara untuk menghitung garis itu. Anda hanya akan menghitungnya seperti itu jika Anda ingin mengatakan sesuatu tentang sampel tertentu.
John
Maaf, saya tidak mengerti mengapa ringkasan adalah laporan yang salah. Saya pikir saya kehilangan titik pusat Anda. Bisakah Anda jelaskan?
Kentang
1
Anda dapat menormalkan dan kemudian rata-rata, yang memberikan hasil "benar" (A). Tapi ini haram. Kutipan berikut berasal dari artikel yang relevan di Stanford Encyclopedia of Philosophy, tersedia di sini: plato.stanford.edu/entries/paradox-simpson
Potato
2
"Pembalikan Simpson menunjukkan bahwa ada banyak cara mempartisi populasi yang konsisten dengan asosiasi dalam total populasi. Sebuah partisi berdasarkan jenis kelamin mungkin menunjukkan bahwa baik pria dan wanita bernasib lebih buruk ketika diberikan perawatan baru, sementara partisi dari populasi yang sama berdasarkan usia menunjukkan bahwa pasien di bawah lima puluh, dan pasien lima puluh dan lebih tua keduanya bernasib lebih baik diberi pengobatan baru. Normalisasi data dari berbagai cara pembagian populasi yang sama akan memberikan kesimpulan yang tidak kompatibel tentang asosiasi yang memegang total populasi. "
Potato
4

Satu "take away" penting adalah bahwa jika penugasan pengobatan tidak proporsional antara subkelompok, seseorang harus memperhitungkan subkelompok ketika menganalisis data.

"Pengambilan" penting kedua adalah bahwa studi observasional sangat rentan untuk memberikan jawaban yang salah karena keberadaan paradoks Simpson yang tidak diketahui. Itu karena kita tidak dapat memperbaiki fakta bahwa Pengobatan A cenderung diberikan pada kasus-kasus yang lebih sulit jika kita tidak tahu itu benar.

Dalam studi acak yang benar kita dapat (1) mengalokasikan pengobatan secara acak sehingga memberikan "keuntungan tidak adil" untuk satu pengobatan sangat tidak mungkin dan secara otomatis akan diurus dalam analisis data atau, (2) jika ada alasan penting untuk melakukannya, alokasikan perawatan secara acak tetapi tidak proporsional berdasarkan pada beberapa masalah yang diketahui dan kemudian pertimbangkan masalah tersebut selama analisis.

Emil Friedman
sumber
+1, namun "secara otomatis diurus" tidak sepenuhnya benar (setidaknya dalam situasi langsung, yang terutama Anda pedulikan). Memang benar dalam jangka panjang, tetapi Anda masih dapat memiliki banyak kesalahan tipe I & tipe II karena kesalahan pengambilan sampel (yaitu, pasien dalam 1 kondisi perawatan cenderung memiliki penyakit yang lebih parah secara kebetulan).
gung - Reinstate Monica
Tetapi efek kesalahan pengambilan sampel akan diperhitungkan ketika kami menganalisis tabel kontingensi dan menghitung dan menginterpretasikan nilai-p dengan benar.
Emil Friedman