Saya mungkin tidak memiliki pemahaman yang jelas tentang paradoks Simpson . Secara informal saya tahu bahwa rata-rata respons Y1, yang dikelompokkan atas semua tingkat faktor A yang mungkin, dapat lebih tinggi daripada rata-rata respons Y2 di atas semua tingkat A, bahkan jika rata-rata Y1 untuk setiap tingkat A (setiap kelompok) adalah selalu kurang dari rata-rata Y2 yang sesuai. Saya sudah membaca contoh-contoh, tetapi saya masih terkejut setiap kali melihatnya, mungkin karena saya tidak belajar dengan baik dengan contoh-contoh spesifik: Saya memiliki masalah dalam menggeneralisasi mereka. Saya belajar paling baik, dan lebih suka melihat, penjelasan dalam formula. Bisakah Anda jelaskan paradoks yang mengandalkan persamaan, daripada menghitung tabel?
Juga, saya pikir alasan keterkejutan saya adalah bahwa secara tidak sadar saya dapat membuat beberapa asumsi tentang rata-rata yang terlibat dalam paradoks, yang mungkin tidak benar secara umum. Mungkin saya lupa memberi bobot pada jumlah sampel di setiap kelompok? Tetapi kemudian, saya ingin melihat persamaan yang menunjukkan kepada saya bahwa perkiraan rata-rata total lebih akurat jika saya menimbang rata-rata setiap kelompok dengan jumlah sampel dalam setiap kelompok, karena (jika ini benar) tidak jelas bagi saya secara umum. Secara naif saya akan berpikir bahwa perkiraan memiliki kesalahan standar yang lebih rendah ketika saya memiliki lebih banyak sampel, terlepas dari bobot.
Jawaban:
Berikut ini adalah pendekatan umum untuk memahami Paradox Simpson secara aljabar untuk menghitung data.
Misalkan kita memiliki data survival untuk eksposur dan kita membuat tabel kontingensi 2x2. Untuk mempermudah, kita akan memiliki jumlah yang sama di setiap sel. Kita bisa santai ini, tetapi itu akan membuat aljabarnya cukup berantakan.
Dalam hal ini, Angka Kematian adalah sama di kedua kelompok Terkena dan Tidak Terkena.
Sekarang, jika kita membagi data, katakanlah menjadi satu kelompok untuk wanita dan kelompok lain untuk pria, kita mendapatkan 2 tabel, dengan jumlah berikut:
Laki-laki:ExposedUnexposedDiedXaXcSurvivedXbXdDeath Rateaa+bcc+d
dan untuk wanita:ExposedUnexposedDiedX(a−1)X(c−1)SurvivedX(b−1)X(d−1)Death Ratea−1a+b−2c−1c+d−2
di manaa,b,c,d∈[0,1] adalah proporsi dari masing-masing sel dalam tabel data agregat yang adalah laki-laki.
Paradox Simpson akan terjadi ketika tingkat kematian untuk pria yang terpapar lebih besar dari tingkat kematian untuk pria yang tidak terpapar DAN tingkat kematian untuk wanita yang terpapar lebih besar dari tingkat kematian untuk wanita yang tidak terpapar. Atau, itu juga akan terjadi ketika tingkat kematian untuk pria yang terpapar kurang dari tingkat kematian untuk pria yang tidak terpapar DAN tingkat kematian untuk wanita yang terpapar kurang dari tingkat kematian untuk wanita yang tidak terpapar. Saat itulah
Set ketidaksetaraan ke-2 memberi:
dan untuk Wanita:
Jadi, laki-laki memiliki tingkat kematian yang lebih tinggi pada kelompok yang tidak terpapar daripada kelompok yang terpapar, dan perempuan juga memiliki tingkat kematian yang lebih tinggi pada kelompok yang tidak terpapar daripada kelompok yang terpapar, namun tingkat kematian dalam data agregat sama untuk terpapar dan tidak terpajan. .
sumber
Data dalam kelompok A sedemikian rupa sehingga garis regresi pas adalah
dengan nilai rata-rata2 dan 9 untuk x dan y masing-masing.
Data dalam kelompok B sedemikian rupa sehingga garis regresi pas adalah
dengan nilai rata-rata11 dan 14 untuk x dan y masing-masing.
Jadi koefisien regresi untukx adalah - 1 di kedua kelompok.
Selanjutnya, biarkan ada jumlah pengamatan yang sama di setiap kelompok, dengan keduanya dan y didistribusikan secara simetris. Kami sekarang ingin menghitung garis regresi keseluruhan. Untuk menyederhanakan masalah, kami akan menganggap bahwa garis regresi keseluruhan melewati sarana masing-masing kelompok, yaitu( 2 , 9 ) untuk grup A dan ( 11 , 14 ) untuk kelompok B. Maka mudah untuk melihat bahwa kemiringan garis regresi keseluruhan harus ( 14 - 9 ) / ( 11 - 2 ) = 0,55 yang merupakan koefisien regresi keseluruhan untuk x . Jadi kita melihat paradoks Simpson dalam tindakan - kita memiliki hubungan negatifx dengan y dalam setiap kelompok secara individu, tetapi hubungan positif secara keseluruhan ketika data dikumpulkan. Kami dapat menunjukkan ini dengan mudah di R sebagai berikut:
Poin merah dan garis regresi adalah grup A, titik biru dan garis regresi adalah grup B dan garis hitam adalah garis regresi keseluruhan.
sumber