Berikut ini adalah pertanyaan tentang banyak visualisasi yang ditawarkan sebagai 'bukti oleh gambar' tentang keberadaan paradoks Simpson, dan mungkin pertanyaan tentang terminologi.
Paradox Simpson adalah fenomena yang cukup sederhana untuk menggambarkan dan memberikan contoh numerik (alasan mengapa ini bisa terjadi adalah dalam dan menarik). Paradoksnya adalah bahwa terdapat tabel kontingensi 2x2x2 (Agresti, Analisis Data Kategorikal) di mana asosiasi marjinal memiliki arah yang berbeda dari setiap asosiasi bersyarat.
Artinya, perbandingan rasio dalam dua subpopulasi dapat berjalan dalam satu arah tetapi perbandingan dalam populasi gabungan berjalan ke arah lain. Dalam simbol:
Ada sedemikian rupa sehingga a + b
tetapi dan
Ini secara akurat direpresentasikan dalam visualisasi berikut (dari Wikipedia ):
Fraksi hanyalah kemiringan dari vektor yang sesuai, dan mudah untuk melihat dalam contoh bahwa vektor B yang lebih pendek memiliki kemiringan yang lebih besar dari vektor L yang sesuai, tetapi vektor B yang dikombinasi memiliki kemiringan yang lebih kecil daripada vektor L yang digabungkan.
Ada visualisasi yang sangat umum dalam banyak bentuk, satu di bagian depan referensi wikipedia itu di Simpson's:
Ini adalah contoh yang bagus dari perancu, bagaimana variabel tersembunyi (yang memisahkan dua sub populasi) dapat menunjukkan pola yang berbeda.
Namun, secara matematis, gambar semacam itu sama sekali tidak sesuai dengan tampilan tabel kontingensi yang berada di dasar fenomena yang dikenal sebagai paradoks Simpson . Pertama, garis regresi lebih dari data set point bernilai nyata, bukan menghitung data dari tabel kontingensi.
Juga, seseorang dapat membuat set data dengan hubungan sembarang lereng di garis regresi, tetapi dalam tabel kontingensi, ada batasan dalam seberapa berbeda lereng bisa. Artinya, garis regresi suatu populasi dapat menjadi ortogonal untuk semua regresi dari subpopulasi yang diberikan. Tetapi dalam Paradox Simpson, rasio subpopulasi, meskipun bukan kemiringan regresi, tidak dapat menyimpang terlalu jauh dari populasi yang digabung, bahkan jika ke arah lain (sekali lagi, lihat gambar perbandingan perbandingan dari Wikipedia).
Bagi saya, itu cukup mengejutkan setiap kali saya melihat gambar yang terakhir sebagai visualisasi dari paradoks Simpson. Tetapi karena saya melihat contoh (apa yang saya sebut salah) di mana-mana, saya ingin tahu:
- Apakah saya kehilangan transformasi halus dari contoh simpson / Yule asli dari tabel kontingensi menjadi nilai riil yang membenarkan visualisasi garis regresi?
- Tentunya Simpson adalah contoh kesalahan pembaur tertentu. Telah istilah 'Simpson Paradox' sekarang menjadi disamakan dengan pengganggu kesalahan, sehingga apa pun matematika, setiap perubahan arah melalui variabel tersembunyi bisa disebut Simpson Paradox?
Tambahan: Berikut adalah contoh generalisasi ke tabel 2xmxn (atau 2 x m secara kontinu):
Jika digabungkan dengan tipe tembakan, sepertinya pemain melakukan lebih banyak tembakan ketika pemain belakang lebih dekat. Dikelompokkan berdasarkan tipe tembakan (benar-benar jauh dari keranjang), situasi yang secara intuitif lebih diharapkan terjadi, bahwa semakin banyak tembakan dilakukan semakin jauh para pembela.
Gambar ini adalah apa yang saya anggap sebagai generalisasi dari Simpson ke situasi yang lebih berkelanjutan (jarak pembela). Tapi saya masih belum melihat bagaimana contoh garis regresi adalah contoh dari Simpson.
sumber
Jawaban:
Masalah utamanya adalah Anda menyamakan satu cara sederhana untuk menunjukkan paradoks sebagai paradoks itu sendiri. Contoh sederhana dari tabel kontingensi bukanlah paradoks itu sendiri. Paradoks Simpson adalah tentang intuisi kausal yang bertentangan ketika membandingkan asosiasi marginal dan kondisional, paling sering karena pembalikan tanda (atau pelemahan ekstrem seperti kemerdekaan, seperti dalam contoh asli yang diberikan oleh Simpson sendiri , di mana tidak ada pembalikan tanda). Paradoks muncul ketika Anda menafsirkan kedua perkiraan secara kausal, yang dapat mengarah pada kesimpulan yang berbeda --- apakah perawatan membantu atau melukai pasien? Dan estimasi mana yang harus Anda gunakan?
Apakah pola paradoks muncul di meja kontingensi atau dalam regresi, itu tidak masalah. Semua variabel dapat kontinu dan paradoksnya masih dapat terjadi --- misalnya, Anda dapat memiliki kasus di mana yet .∂E(Y|X,C=c)∂E( Y| X)∂X> 0 ∂E( Y|X, C= c )∂X< 0 , ∀ c
Ini salah! Paradoks Simpson bukan contoh khusus dari kesalahan pembaur - jika hanya itu, maka tidak akan ada paradoks sama sekali. Lagi pula, jika Anda yakin beberapa hubungan dikacaukan Anda tidak akan terkejut melihat tanda pembalikan atau pelemahan dalam tabel kontingensi atau koefisien regresi --- mungkin Anda bahkan akan mengharapkan itu.
Jadi sementara paradoks Simpson mengacu pada pembalikan (atau pelemahan ekstrim) dari "efek" ketika membandingkan asosiasi marjinal dan bersyarat, ini mungkin bukan karena faktor perancu dan apriori Anda tidak dapat mengetahui apakah tabel marjinal atau bersyarat adalah "benar" "satu untuk berkonsultasi untuk menjawab permintaan kausal Anda. Untuk melakukan itu, Anda perlu tahu lebih banyak tentang struktur penyebab masalah.
Pertimbangkan contoh-contoh ini yang diberikan dalam Pearl :
Bayangkan bahwa Anda tertarik pada keseluruhan efek kausal dari pada . Pembalikan asosiasi dapat terjadi di semua grafik ini. Dalam (a) dan (d) kami telah membingungkan, dan Anda akan menyesuaikan . Dalam (b) tidak ada pengganggu, adalah mediator, dan Anda tidak harus menyesuaikan . Dalam (c) adalah collider dan tidak ada pengganggu, sehingga Anda tidak harus menyesuaikan baik. Yaitu, dalam dua contoh ini (b dan c) Anda dapat mengamati paradoks Simpson, namun, tidak ada yang membingungkan sama sekali dan jawaban yang benar untuk permintaan kausal Anda akan diberikan oleh perkiraan yang tidak disesuaikan.Y Z Z ZX Y Z Z Z Z Z
Penjelasan Pearl tentang mengapa ini dianggap sebagai "paradoks" dan mengapa masih membingungkan orang-orang sangat masuk akal. Ambil contoh kasus sederhana yang digambarkan dalam (a) misalnya: efek kausal tidak bisa begitu saja berbalik seperti itu. Oleh karena itu, jika kita salah berasumsi bahwa kedua perkiraan tersebut bersifat sebab akibat (marginal dan bersyarat), kita akan terkejut melihat hal seperti itu terjadi --- dan manusia tampaknya terhubung untuk melihat sebab-akibat dalam sebagian besar asosiasi.
Jadi kembali ke pertanyaan (judul) utama Anda:
Dalam arti tertentu, inilah definisi paradoks Simpson saat ini. Tetapi jelas variabel pengkondisian tidak tersembunyi, itu harus diamati jika Anda tidak akan melihat paradoks terjadi. Sebagian besar bagian yang membingungkan dari paradoks berasal dari pertimbangan kausal dan variabel "tersembunyi" ini tidak selalu membingungkan.
Tabel dan regresi kontijensi
Seperti dibahas dalam komentar, identitas aljabar menjalankan regresi dengan data biner dan menghitung perbedaan proporsi dari tabel kontingensi dapat membantu memahami mengapa paradoks yang muncul dalam regresi adalah sifat yang sama. Bayangkan hasil Anda adalah , pengobatan Anda dan grup Anda , semua variabel biner.y x z
Maka perbedaan keseluruhan dalam proporsi hanyalah koefisien regresi pada . Menggunakan notasi Anda:y x
Dan hal yang sama berlaku untuk setiap subkelompok jika Anda menjalankan regresi terpisah, satu untuk :z z= 1
Dan satu lagi untuk :z= 0
Oleh karena itu dalam hal regresi, paradoks sesuai dengan memperkirakan koefisien pertama dalam satu arah dan dua koefisien dari subkelompok dalam arah yang berbeda dari koefisien untuk seluruh populasi .(cov(( C o v ( y, x )v a r ( x )) (c( C o v ( y, x | z)v a r ( x | z)) ( C o v ( y, x )v a r ( x ))
sumber
Iya. Representasi serupa dari analisis kategorikal dimungkinkan dengan memvisualisasikan log-odds dari respons pada sumbu Y. Paradoks Simpson muncul dengan cara yang sama dengan garis "kasar" yang berjalan melawan tren spesifik-strata yang tertimbang dalam jarak menurut log-odds rujukan stratum dari hasil.
Berikut ini contoh data penerimaan Berkeley
Di sini gender adalah kode pria / wanita, pada sumbu X adalah log-odds penerimaan kasar untuk pria dan wanita, garis hitam putus-putus menunjukkan preferensi gender: kemiringan positif menunjukkan bias terhadap penerimaan pria. Warna mewakili penerimaan ke departemen tertentu. Dalam semua kecuali dua kasus, kemiringan garis preferensi gender spesifik departemen adalah negatif. Jika hasil ini dirata-ratakan bersama dalam model logistik yang tidak memperhitungkan interaksi, efek keseluruhannya adalah pembalikan penerimaan wanita. Mereka melamar ke departemen yang lebih sulit lebih sering daripada laki-laki.
Secara singkat, tidak. Paradoks Simpson hanyalah "apa" sedangkan perancu adalah "mengapa". Diskusi dominan berfokus pada di mana mereka setuju. Perancu mungkin memiliki efek minimal atau dapat diabaikan pada perkiraan, dan sebaliknya paradoks Simpson, meskipun dramatis, dapat disebabkan oleh non-perancu. Sebagai catatan, istilah "tersembunyi" atau "mengintai" variabel tidak tepat. Dari sudut pandang epidemiologis, kontrol dan desain penelitian yang cermat harus memungkinkan pengukuran atau kontrol terhadap kontributor yang mungkin terhadap bias yang membingungkan. Mereka tidak perlu "disembunyikan" untuk menjadi masalah.
Ada saat-saat di mana estimasi titik dapat bervariasi secara drastis, sampai titik pembalikan, yang tidak dihasilkan dari perancu. Colliders dan mediator juga mengubah efek, mungkin membalikkannya. Penalaran kausal memperingatkan bahwa untuk mempelajari efek, efek utama harus dipelajari secara terpisah daripada menyesuaikannya karena estimasi bertingkat salah. (Ini sama dengan menyimpulkan, secara keliru, bahwa melihat dokter membuat Anda sakit, atau bahwa senjata membunuh orang maka orang tidak membunuh orang).
sumber