Bisakah Anda menjelaskan paradoks Simpson dengan persamaan, bukan tabel kontingensi?

14

Saya mungkin tidak memiliki pemahaman yang jelas tentang paradoks Simpson . Secara informal saya tahu bahwa rata-rata respons Y1, yang dikelompokkan atas semua tingkat faktor A yang mungkin, dapat lebih tinggi daripada rata-rata respons Y2 di atas semua tingkat A, bahkan jika rata-rata Y1 untuk setiap tingkat A (setiap kelompok) adalah selalu kurang dari rata-rata Y2 yang sesuai. Saya sudah membaca contoh-contoh, tetapi saya masih terkejut setiap kali melihatnya, mungkin karena saya tidak belajar dengan baik dengan contoh-contoh spesifik: Saya memiliki masalah dalam menggeneralisasi mereka. Saya belajar paling baik, dan lebih suka melihat, penjelasan dalam formula. Bisakah Anda jelaskan paradoks yang mengandalkan persamaan, daripada menghitung tabel?

Juga, saya pikir alasan keterkejutan saya adalah bahwa secara tidak sadar saya dapat membuat beberapa asumsi tentang rata-rata yang terlibat dalam paradoks, yang mungkin tidak benar secara umum. Mungkin saya lupa memberi bobot pada jumlah sampel di setiap kelompok? Tetapi kemudian, saya ingin melihat persamaan yang menunjukkan kepada saya bahwa perkiraan rata-rata total lebih akurat jika saya menimbang rata-rata setiap kelompok dengan jumlah sampel dalam setiap kelompok, karena (jika ini benar) tidak jelas bagi saya secara umum. Secara naif saya akan berpikir bahwa perkiraan $\mathbf{E}[Y_1]$ memiliki kesalahan standar yang lebih rendah ketika saya memiliki lebih banyak sampel, terlepas dari bobot.

mathematical-statistics simpsons-paradox DeltaIV
sumber

1

Saya punya posting terkait di sini dengan simulasi. Simulasi ini mungkin membantu Anda untuk memahami paradoks simpson

Haitao Du

di sini adalah mesin yang memproduksi paradoxs Simpson pada permintaan!

kjetil b halvorsen

11

Berikut ini adalah pendekatan umum untuk memahami Paradox Simpson secara aljabar untuk menghitung data.

Misalkan kita memiliki data survival untuk eksposur dan kita membuat tabel kontingensi 2x2. Untuk mempermudah, kita akan memiliki jumlah yang sama di setiap sel. Kita bisa santai ini, tetapi itu akan membuat aljabarnya cukup berantakan.

\begin{array}{cccc} Died & Survived & Death Rate \\ Exposed & X & X & 0.5 \\ Unexposed & X & X & 0.5 \end{array}

$\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & X & X & 0.5 \\ \hline \text{Unexposed}& X & X & 0.5\\ \hline \end{array}$

Dalam hal ini, Angka Kematian adalah sama di kedua kelompok Terkena dan Tidak Terkena.

Sekarang, jika kita membagi data, katakanlah menjadi satu kelompok untuk wanita dan kelompok lain untuk pria, kita mendapatkan 2 tabel, dengan jumlah berikut:

Laki-laki:

\begin{array}{cccc} Died & Survived & Death Rate \\ Exposed & X a & X b & \frac{a}{a + b} \\ Unexposed & X c & X d & \frac{c}{c + d} \end{array}

$\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & Xa & Xb & \frac{a}{a+b} \\ \hline \text{Unexposed}& Xc & Xd & \frac{c}{c+d}\\ \hline \end{array}$

dan untuk wanita:

\begin{array}{cccc} Died & Survived & Death Rate \\ Exposed & X (a - 1) & X (b - 1) & \frac{a - 1}{a + b - 2} \\ Unexposed & X (c - 1) & X (d - 1) & \frac{c - 1}{c + d - 2} \end{array}

$\begin{array}{|c|c|c|c|} \hline & \text{Died} & \text{Survived} & \text{Death Rate} \\ \hline \text{Exposed} & X(a-1) & X(b-1) & \frac{a-1}{a+b-2} \\ \hline \text{Unexposed}& X(c-1) & X(d-1) & \frac{c-1}{c+d-2}\\ \hline \end{array}$

di mana $a,b,c,d \in [0,1]$ adalah proporsi dari masing-masing sel dalam tabel data agregat yang adalah laki-laki.

Paradox Simpson akan terjadi ketika tingkat kematian untuk pria yang terpapar lebih besar dari tingkat kematian untuk pria yang tidak terpapar DAN tingkat kematian untuk wanita yang terpapar lebih besar dari tingkat kematian untuk wanita yang tidak terpapar. Atau, itu juga akan terjadi ketika tingkat kematian untuk pria yang terpapar kurang dari tingkat kematian untuk pria yang tidak terpapar DAN tingkat kematian untuk wanita yang terpapar kurang dari tingkat kematian untuk wanita yang tidak terpapar. Saat itulah

(\frac{a}{a + b} < \frac{c}{c + d}) and (\frac{a - 1}{a + b - 2} < \frac{c - 1}{c + d - 2})

$\left(\frac{a}{a+b} < \frac{c}{c+d}\right) \text{ and } \left(\frac{a-1}{a+b-2} < \frac{c-1}{c+d-2}\right)$

Atau

$\text{Or }$

(\frac{a}{a + b} > \frac{c}{c + d}) and (\frac{a - 1}{a + b - 2} > \frac{c - 1}{c + d - 2})

$\left(\frac{a}{a+b} > \frac{c}{c+d}\right) \text{ and } \left(\frac{a-1}{a+b-2} > \frac{c-1}{c+d-2}\right)$

$X=100$ $a=0.5, b=0.8, c=0.9$

(\frac{0.5}{0.8 + 0.9} < \frac{0.9}{0.9 + d}) and (\frac{0.5 - 1}{0.5 + 0.8 - 2} < \frac{0.9 - 1}{0.9 + d - 2})

$\left(\frac{0.5}{0.8+0.9} < \frac{0.9}{0.9+d}\right) \text{ and } \left(\frac{0.5-1}{0.5+0.8-2} < \frac{0.9-1}{0.9+d-2}\right)$

(- 9 < d < 1.44) and (0.96 < d < 1.1)

$(-9 < d < 1.44) \text{ and } (0.96 < d < 1.1)$

$(0.96,1]$

Set ketidaksetaraan ke-2 memberi:

(\frac{0.5}{0.8 + 0.9} > \frac{0.9}{0.9 + d}) and (\frac{0.5 - 1}{0.5 + 0.8 - 2} > \frac{0.9 - 1}{0.9 + d - 2})

$\left(\frac{0.5}{0.8+0.9} > \frac{0.9}{0.9+d}\right) \text{ and } \left(\frac{0.5-1}{0.5+0.8-2} > \frac{0.9-1}{0.9+d-2}\right)$

(d < - 0.9 or d > 1.44) and (0.96 < d or d > 1.44)

$(d < -0.9 \text{ or } d>1.44) \text{ and } (0.96 < d \text{ or } d > 1.44)$

$d \in [0,1]$

$a,b,$ $c$ $d$ $0.99$

0,5 / (0,5 + 0.8) = 38 % dalam kelompok yang terpapar

$0.5/ (0.5+0.8) = 38 \text{% in the exposed group}$

0,9 / (0,9 + 0,99) = 48 % dalam grup yang tidak terpapar

$0.9/ (0.9+0.99) = 48 \text{% in the unexposed group}$

dan untuk Wanita:

(0,5 - 1) / (0,5 + 0.8 - 2) = 71 % dalam kelompok yang terpapar

$(0.5-1)/ (0.5+0.8-2) = 71 \text{% in the exposed group}$

(0,9 - 1) / (0,9 + 0,99 - 2) = 91 % dalam grup yang tidak terpapar

$(0.9-1)/ (0.9+0.99-2) = 91 \text{% in the unexposed group}$

Jadi, laki-laki memiliki tingkat kematian yang lebih tinggi pada kelompok yang tidak terpapar daripada kelompok yang terpapar, dan perempuan juga memiliki tingkat kematian yang lebih tinggi pada kelompok yang tidak terpapar daripada kelompok yang terpapar, namun tingkat kematian dalam data agregat sama untuk terpapar dan tidak terpajan. .

Robert Long
sumber

16

$x$ $y$

Data dalam kelompok A sedemikian rupa sehingga garis regresi pas adalah

y = 11 - x

$y = 11 - x$

dengan nilai rata-rata $2$ dan $9$ untuk $x$ dan $y$ masing-masing.

Data dalam kelompok B sedemikian rupa sehingga garis regresi pas adalah

y = 25 - x

$y = 25 - x$

dengan nilai rata-rata $11$ dan $14$ untuk $x$ dan $y$ masing-masing.

Jadi koefisien regresi untuk $x$ adalah $-1$ di kedua kelompok.

Selanjutnya, biarkan ada jumlah pengamatan yang sama di setiap kelompok, dengan keduanya dan y didistribusikan secara simetris. Kami sekarang ingin menghitung garis regresi keseluruhan. Untuk menyederhanakan masalah, kami akan menganggap bahwa garis regresi keseluruhan melewati sarana masing-masing kelompok, yaitu $(2,9)$ untuk grup A dan $(11,14)$ untuk kelompok B. Maka mudah untuk melihat bahwa kemiringan garis regresi keseluruhan harus $(14-9)/(11-2) = 0.55$ yang merupakan koefisien regresi keseluruhan untuk $x$ . Jadi kita melihat paradoks Simpson dalam tindakan - kita memiliki hubungan negatif $x$ dengan $y$ dalam setiap kelompok secara individu, tetapi hubungan positif secara keseluruhan ketika data dikumpulkan. Kami dapat menunjukkan ini dengan mudah di R sebagai berikut:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

Poin merah dan garis regresi adalah grup A, titik biru dan garis regresi adalah grup B dan garis hitam adalah garis regresi keseluruhan.

Robert Long
sumber

Hai, terima kasih atas jawabannya, tetapi ini adalah contoh spesifik dari paradoks Simpson. Saya secara khusus meminta sesuatu dalam bentuk teorema atau serangkaian persamaan, pendekatan yang lebih abstrak dan umum. Bagaimanapun, karena tidak ada jawaban lain, saya akan mempelajari contoh Anda dan jika saya merasa itu membantu saya untuk menggeneralisasi konsep, saya akan menerima jawabannya.

DeltaIV

3

@DeltaIV Saya telah menulis jawaban baru menggunakan argumen aljabar murni.

Robert Long

Bisakah Anda menjelaskan paradoks Simpson dengan persamaan, bukan tabel kontingensi?

Jawaban: