Apakah Paradox Simpson mencakup semua contoh pembalikan dari variabel tersembunyi?

10

Berikut ini adalah pertanyaan tentang banyak visualisasi yang ditawarkan sebagai 'bukti oleh gambar' tentang keberadaan paradoks Simpson, dan mungkin pertanyaan tentang terminologi.

Paradox Simpson adalah fenomena yang cukup sederhana untuk menggambarkan dan memberikan contoh numerik (alasan mengapa ini bisa terjadi adalah dalam dan menarik). Paradoksnya adalah bahwa terdapat tabel kontingensi 2x2x2 (Agresti, Analisis Data Kategorikal) di mana asosiasi marjinal memiliki arah yang berbeda dari setiap asosiasi bersyarat.

Artinya, perbandingan rasio dalam dua subpopulasi dapat berjalan dalam satu arah tetapi perbandingan dalam populasi gabungan berjalan ke arah lain. Dalam simbol:

Ada sedemikian rupa sehingga a + ba,b,c,d,e,f,g,h

a+bc+d>e+fg+h

tetapi dan

ac<eg

bd<fh

Ini secara akurat direpresentasikan dalam visualisasi berikut (dari Wikipedia ):

Paradoks simpson 'dalam vektor

Fraksi hanyalah kemiringan dari vektor yang sesuai, dan mudah untuk melihat dalam contoh bahwa vektor B yang lebih pendek memiliki kemiringan yang lebih besar dari vektor L yang sesuai, tetapi vektor B yang dikombinasi memiliki kemiringan yang lebih kecil daripada vektor L yang digabungkan.

Ada visualisasi yang sangat umum dalam banyak bentuk, satu di bagian depan referensi wikipedia itu di Simpson's:

lereng sebaliknya dalam sub populasi

Ini adalah contoh yang bagus dari perancu, bagaimana variabel tersembunyi (yang memisahkan dua sub populasi) dapat menunjukkan pola yang berbeda.

Namun, secara matematis, gambar semacam itu sama sekali tidak sesuai dengan tampilan tabel kontingensi yang berada di dasar fenomena yang dikenal sebagai paradoks Simpson . Pertama, garis regresi lebih dari data set point bernilai nyata, bukan menghitung data dari tabel kontingensi.

Juga, seseorang dapat membuat set data dengan hubungan sembarang lereng di garis regresi, tetapi dalam tabel kontingensi, ada batasan dalam seberapa berbeda lereng bisa. Artinya, garis regresi suatu populasi dapat menjadi ortogonal untuk semua regresi dari subpopulasi yang diberikan. Tetapi dalam Paradox Simpson, rasio subpopulasi, meskipun bukan kemiringan regresi, tidak dapat menyimpang terlalu jauh dari populasi yang digabung, bahkan jika ke arah lain (sekali lagi, lihat gambar perbandingan perbandingan dari Wikipedia).

Bagi saya, itu cukup mengejutkan setiap kali saya melihat gambar yang terakhir sebagai visualisasi dari paradoks Simpson. Tetapi karena saya melihat contoh (apa yang saya sebut salah) di mana-mana, saya ingin tahu:

  • Apakah saya kehilangan transformasi halus dari contoh simpson / Yule asli dari tabel kontingensi menjadi nilai riil yang membenarkan visualisasi garis regresi?
  • Tentunya Simpson adalah contoh kesalahan pembaur tertentu. Telah istilah 'Simpson Paradox' sekarang menjadi disamakan dengan pengganggu kesalahan, sehingga apa pun matematika, setiap perubahan arah melalui variabel tersembunyi bisa disebut Simpson Paradox?

Tambahan: Berikut adalah contoh generalisasi ke tabel 2xmxn (atau 2 x m secara kontinu): keranjang persentase yang dibuat sehubungan dengan jarak, variabel tersembunyi adalah jenis tembakan

Jika digabungkan dengan tipe tembakan, sepertinya pemain melakukan lebih banyak tembakan ketika pemain belakang lebih dekat. Dikelompokkan berdasarkan tipe tembakan (benar-benar jauh dari keranjang), situasi yang secara intuitif lebih diharapkan terjadi, bahwa semakin banyak tembakan dilakukan semakin jauh para pembela.

Gambar ini adalah apa yang saya anggap sebagai generalisasi dari Simpson ke situasi yang lebih berkelanjutan (jarak pembela). Tapi saya masih belum melihat bagaimana contoh garis regresi adalah contoh dari Simpson.

Mitch
sumber
5
Paradox Simpson tidak hanya berlaku untuk data target kategori. Data target berkelanjutan dengan faktor kategorikal yang mempengaruhinya, seperti pada grafik akhir Anda, dapat dikenakan paradoks. Kuncinya adalah bahwa "faktor kategori", bukan apakah variabel minat itu kategoris atau tidak, atau apakah ada atau semua faktor lain yang memengaruhi variabel bunga itu kategoris.
jbowman
@jbowman OK, saya bisa melihat kemungkinan bahwa SP dapat digeneralisasikan di luar data kategorikal menjadi kontinu (saya belum melihat generalisasi itu; SP tampaknya selalu disajikan dengan tabel kontingensi), tetapi saya tidak melihat bagaimana grafik kedua sesuai. Maksud saya, saya melihat metafora yang jelas tetapi samar "variabel tersembunyi dapat mengubah arah", tetapi saya tidak melihat bagaimana generalisasi bekerja secara matematis / tepat.
Mitch
1
Anda memiliki faktor kategorikal tersembunyi yang menyebabkan data "nyata" mengikuti dua garis berwarna, tetapi tanpa sepengetahuannya, data tersebut tampaknya mengikuti garis putus-putus. Pertimbangkan mengemudi kecelakaan berdasarkan usia sebagai target dan variabel x-axis Anda - bukan kategori. Mereka tampaknya turun seiring bertambahnya usia, kan? Sekarang tambahkan "faktor tersembunyi" dari "mengemudi sambil mabuk". Garis biru adalah "mengemudi sambil mabuk", merah "mengemudi sementara tidak mabuk". Mengingat faktor tersembunyi itu, berkorelasi dengan pemuda, kecelakaan meningkat seiring bertambahnya usia! (Bukan contoh yang paling realistis, harus saya akui, tapi itu ide yang diperhitungkan ...)
jbowman
@jbowman Itu hanya terdengar seperti penjelasan tentang kesalahan yang membingungkan daripada SP. Mungkin Anda mengatakan bahwa SP dan perancu adalah sama. Tapi itu terdengar ke arah jawaban; mungkin Anda bisa memformalkannya sedikit lebih dan membuat koneksi dengan SP lebih eksplisit (memperhitungkan secara matematis untuk bagaimana garis regresi entah bagaimana seperti perbandingan rasio dalam kasus tabel kontingensi).
Mitch
1
Saya setuju versi kontingensi berbeda dalam beberapa cara dari contoh regresi dalam pertanyaan Anda. (1) Variabel perancu tidak kovariat menggambarkan sampel individu, itu beberapa proporsi yang berbeda antara pengobatan dan kelompok kontrol. Dalam contoh batu ginjal proporsi pasien batu besar berbeda antara kedua kelompok dan yang menyebabkan paradoks. (2) Dalam contoh ginjal, pengobatan tidak berkorelasi dengan perubahan pada variabel perancu, ini adalah efek terpisah. halxp
Paul

Jawaban:

8

Paradoksnya adalah bahwa terdapat tabel kontingensi 2x2x2 (Agresti, Analisis Data Kategorikal) di mana asosiasi marginal memiliki arah yang berbeda dari setiap asosiasi bersyarat [...] Apakah saya kehilangan transformasi halus dari contoh Simpson / Yule asli dari tabel kontingensi menjadi nilai nyata yang membenarkan visualisasi garis regresi?

Masalah utamanya adalah Anda menyamakan satu cara sederhana untuk menunjukkan paradoks sebagai paradoks itu sendiri. Contoh sederhana dari tabel kontingensi bukanlah paradoks itu sendiri. Paradoks Simpson adalah tentang intuisi kausal yang bertentangan ketika membandingkan asosiasi marginal dan kondisional, paling sering karena pembalikan tanda (atau pelemahan ekstrem seperti kemerdekaan, seperti dalam contoh asli yang diberikan oleh Simpson sendiri , di mana tidak ada pembalikan tanda). Paradoks muncul ketika Anda menafsirkan kedua perkiraan secara kausal, yang dapat mengarah pada kesimpulan yang berbeda --- apakah perawatan membantu atau melukai pasien? Dan estimasi mana yang harus Anda gunakan?

Apakah pola paradoks muncul di meja kontingensi atau dalam regresi, itu tidak masalah. Semua variabel dapat kontinu dan paradoksnya masih dapat terjadi --- misalnya, Anda dapat memiliki kasus di mana yet .E(Y|X,C=c)E(Y|X)X>0E(Y|X,C=c)X<0,c

Tentunya Simpson adalah contoh kesalahan pembaur tertentu.

Ini salah! Paradoks Simpson bukan contoh khusus dari kesalahan pembaur - jika hanya itu, maka tidak akan ada paradoks sama sekali. Lagi pula, jika Anda yakin beberapa hubungan dikacaukan Anda tidak akan terkejut melihat tanda pembalikan atau pelemahan dalam tabel kontingensi atau koefisien regresi --- mungkin Anda bahkan akan mengharapkan itu.

Jadi sementara paradoks Simpson mengacu pada pembalikan (atau pelemahan ekstrim) dari "efek" ketika membandingkan asosiasi marjinal dan bersyarat, ini mungkin bukan karena faktor perancu dan apriori Anda tidak dapat mengetahui apakah tabel marjinal atau bersyarat adalah "benar" "satu untuk berkonsultasi untuk menjawab permintaan kausal Anda. Untuk melakukan itu, Anda perlu tahu lebih banyak tentang struktur penyebab masalah.

Pertimbangkan contoh-contoh ini yang diberikan dalam Pearl : masukkan deskripsi gambar di sini

Bayangkan bahwa Anda tertarik pada keseluruhan efek kausal dari pada . Pembalikan asosiasi dapat terjadi di semua grafik ini. Dalam (a) dan (d) kami telah membingungkan, dan Anda akan menyesuaikan . Dalam (b) tidak ada pengganggu, adalah mediator, dan Anda tidak harus menyesuaikan . Dalam (c) adalah collider dan tidak ada pengganggu, sehingga Anda tidak harus menyesuaikan baik. Yaitu, dalam dua contoh ini (b dan c) Anda dapat mengamati paradoks Simpson, namun, tidak ada yang membingungkan sama sekali dan jawaban yang benar untuk permintaan kausal Anda akan diberikan oleh perkiraan yang tidak disesuaikan.Y Z Z ZXYZZZZZ

Penjelasan Pearl tentang mengapa ini dianggap sebagai "paradoks" dan mengapa masih membingungkan orang-orang sangat masuk akal. Ambil contoh kasus sederhana yang digambarkan dalam (a) misalnya: efek kausal tidak bisa begitu saja berbalik seperti itu. Oleh karena itu, jika kita salah berasumsi bahwa kedua perkiraan tersebut bersifat sebab akibat (marginal dan bersyarat), kita akan terkejut melihat hal seperti itu terjadi --- dan manusia tampaknya terhubung untuk melihat sebab-akibat dalam sebagian besar asosiasi.

Jadi kembali ke pertanyaan (judul) utama Anda:

Apakah Paradox Simpson mencakup semua contoh pembalikan dari variabel tersembunyi?

Dalam arti tertentu, inilah definisi paradoks Simpson saat ini. Tetapi jelas variabel pengkondisian tidak tersembunyi, itu harus diamati jika Anda tidak akan melihat paradoks terjadi. Sebagian besar bagian yang membingungkan dari paradoks berasal dari pertimbangan kausal dan variabel "tersembunyi" ini tidak selalu membingungkan.

Tabel dan regresi kontijensi

Seperti dibahas dalam komentar, identitas aljabar menjalankan regresi dengan data biner dan menghitung perbedaan proporsi dari tabel kontingensi dapat membantu memahami mengapa paradoks yang muncul dalam regresi adalah sifat yang sama. Bayangkan hasil Anda adalah , pengobatan Anda dan grup Anda , semua variabel biner.yxz

Maka perbedaan keseluruhan dalam proporsi hanyalah koefisien regresi pada . Menggunakan notasi Anda:yx

a+bc+de+fg+h=cov(y,x)var(x)

Dan hal yang sama berlaku untuk setiap subkelompok jika Anda menjalankan regresi terpisah, satu untuk :zz=1

Sebuahc-eg=cHaiv(y,x|z=1)vSebuahr(x|z=1)

Dan satu lagi untuk :z=0

bd-fh=cHaiv(y,x|z=0)vSebuahr(x|z=0)

Oleh karena itu dalam hal regresi, paradoks sesuai dengan memperkirakan koefisien pertama dalam satu arah dan dua koefisien dari subkelompok dalam arah yang berbeda dari koefisien untuk seluruh populasi .(cov((cHaiv(y,x)vSebuahr(x))(c(cHaiv(y,x|z)vSebuahr(x|z))(cHaiv(y,x)vSebuahr(x))

Carlos Cinelli
sumber
1
Kedengarannya seperti, dalam pandangan Anda, paradoks Simpson mengacu tidak hanya pada kemungkinan perbedaan dalam asosiasi marginal dan kondisional, tetapi juga kebingungan tentang mana yang "benar" untuk digunakan ketika menafsirkan data? Dan Pearl menunjukkan bahwa struktur kausal adalah apa yang harus kita gunakan untuk memutuskan ini?
Paul
2
"Paradoks Simpson adalah tentang intuisi yang bertentangan ketika membandingkan asosiasi marjinal dan bersyarat." Saya tidak setuju di sini, paradoks Simpson secara khusus mengacu pada flip-of-sign ketika membandingkan minyak mentah dengan hasil bertingkat.
AdamO
2
@ AdamO sementara kebanyakan orang menggunakan kasus ekstrim pembalikan tanda sebagai definisi "ketat" dari paradoks Simpson, contoh asli Simpson sebenarnya tidak memiliki pembalikan tanda.
Carlos Cinelli
1
@ Paul itu benar sekali.
Carlos Cinelli
2
@ Adamo Saya pikir penjelasan Pearl tentang mengapa ini dianggap sebagai "paradoks" dan mengapa masih membingungkan orang-orang masuk akal. Dalam kasus sederhana (a) misalnya, efek kausal tidak bisa begitu saja berbalik seperti itu. Oleh karena itu, jika kita berpikir secara kausal untuk kedua kasus, kita akan terkejut melihat hal seperti itu terjadi --- dan manusia tampaknya terprogram untuk melihat sebab-akibat dalam sebagian besar asosiasi.
Carlos Cinelli
2

Apakah saya kehilangan transformasi halus dari contoh simpson / Yule asli dari tabel kontingensi menjadi nilai riil yang membenarkan visualisasi garis regresi?

Iya. Representasi serupa dari analisis kategorikal dimungkinkan dengan memvisualisasikan log-odds dari respons pada sumbu Y. Paradoks Simpson muncul dengan cara yang sama dengan garis "kasar" yang berjalan melawan tren spesifik-strata yang tertimbang dalam jarak menurut log-odds rujukan stratum dari hasil.

Berikut ini contoh data penerimaan Berkeley

masukkan deskripsi gambar di sini

Di sini gender adalah kode pria / wanita, pada sumbu X adalah log-odds penerimaan kasar untuk pria dan wanita, garis hitam putus-putus menunjukkan preferensi gender: kemiringan positif menunjukkan bias terhadap penerimaan pria. Warna mewakili penerimaan ke departemen tertentu. Dalam semua kecuali dua kasus, kemiringan garis preferensi gender spesifik departemen adalah negatif. Jika hasil ini dirata-ratakan bersama dalam model logistik yang tidak memperhitungkan interaksi, efek keseluruhannya adalah pembalikan penerimaan wanita. Mereka melamar ke departemen yang lebih sulit lebih sering daripada laki-laki.

Tentunya Simpson adalah contoh kesalahan pembaur tertentu. Apakah istilah 'Paradox Simpson' sekarang disamakan dengan kesalahan yang membingungkan, sehingga apa pun matematika, perubahan arah melalui variabel tersembunyi dapat disebut Simpson's Paradox?

Secara singkat, tidak. Paradoks Simpson hanyalah "apa" sedangkan perancu adalah "mengapa". Diskusi dominan berfokus pada di mana mereka setuju. Perancu mungkin memiliki efek minimal atau dapat diabaikan pada perkiraan, dan sebaliknya paradoks Simpson, meskipun dramatis, dapat disebabkan oleh non-perancu. Sebagai catatan, istilah "tersembunyi" atau "mengintai" variabel tidak tepat. Dari sudut pandang epidemiologis, kontrol dan desain penelitian yang cermat harus memungkinkan pengukuran atau kontrol terhadap kontributor yang mungkin terhadap bias yang membingungkan. Mereka tidak perlu "disembunyikan" untuk menjadi masalah.

Ada saat-saat di mana estimasi titik dapat bervariasi secara drastis, sampai titik pembalikan, yang tidak dihasilkan dari perancu. Colliders dan mediator juga mengubah efek, mungkin membalikkannya. Penalaran kausal memperingatkan bahwa untuk mempelajari efek, efek utama harus dipelajari secara terpisah daripada menyesuaikannya karena estimasi bertingkat salah. (Ini sama dengan menyimpulkan, secara keliru, bahwa melihat dokter membuat Anda sakit, atau bahwa senjata membunuh orang maka orang tidak membunuh orang).

AdamO
sumber
Jadi Anda akan mengatakan bahwa contoh asli Simpson bukan kasus "paradoks Simpson"?
Carlos Cinelli
@CarlosCinelli contoh apa yang Anda maksud? Saya tidak memiliki akses ke makalah Simpson pada tahun 1951, tetapi mengingat makalah ini diterbitkan di JRSS dan tidak memiliki referensi ke contoh yang diterapkan dalam abstrak, tampaknya itu adalah karya yang murni teoretis.
AdamO
Ini adalah contoh numerik pada paragraf 9 dan 10, di mana ia memberikan tabel kontingensi yang sama dengan dua cerita berbeda yang akan mengarah pada dua interpretasi kausal yang berbeda. Dalam contoh itu tidak ada tanda pembalikan, hanya kemerdekaan marjinal.
Carlos Cinelli
2
Untuk melihat mengapa pembalikan tanda tidak penting di sini, bayangkan saja sebuah situasi di mana perawatan menunjukkan hubungan yang sangat kuat untuk pria dan wanita, tetapi hanya menunjukkan hubungan kecil dalam populasi secara keseluruhan. Ini masih akan menjadi paradoks bagi kebanyakan orang, jika ditafsirkan secara kausal.
Carlos Cinelli
@CarlosCinelli saya akan mengatakan itu adalah contoh dari pengganggu tapi tidak paradoks Simpson per se tapi saya tidak akan memukul titik, saya pikir Anda sudah membuat argumen yang baik dan mungkin saya memegang beberapa asumsi yang salah tentang apa dan tidak fenomena sulit dipahami dari Paradox Simpson.
AdamO