Overmatching bias dan variabel perancu

8

Seperti yang saya pahami, pencocokan adalah salah satu cara untuk mengidentifikasi hubungan sebab akibat dalam studi observasional. Dengan mencocokkan pengamatan yang "mirip" dan membandingkan yang tidak atau tidak menerima pengobatan, Anda dapat menganggap ini sebagai semacam eksperimen semu.

Apa itu overmatching? Bias macam apa yang diperkenalkannya? Saya sebagian besar telah melihat pencocokan dari perspektif ekonomi, tetapi baru-baru ini melihat beberapa makalah tentang epidemiologi menunjukkan bahwa "overmatching" dapat mengakibatkan bias. Saya merasa sulit untuk memahami terminologi makalah dan akan sangat menghargai jika seseorang dapat membantu menjelaskan beberapa konsep utama. Di bawah ini adalah artikel yang merujuk ide:

Pencocokan berlebihan dapat menyebabkan bias. BMJ. 2002 10 Agustus; 325 (7359)

d_a_c321
sumber

Jawaban:

11

Dari Modern Epidemiology Edisi ke-3 oleh Rothman, Greenland and Lash:

Setidaknya ada tiga bentuk overmatching. Yang pertama mengacu pada pencocokan yang membahayakan efisiensi statistik, seperti pencocokan kasus-kontrol pada variabel yang terkait dengan paparan tetapi bukan penyakit. Yang kedua mengacu pada pencocokan yang merusak validitas, seperti pencocokan pada perantara antara paparan dan penyakit. Yang ketiga mengacu pada pencocokan yang membahayakan efisiensi biaya.

Jawaban dari AndyW adalah tentang bentuk kedua dari overmatching. Secara singkat, inilah cara mereka semua bekerja:

1: Untuk menjadi perancu, salah satu kriteria adalah bahwa kovariat dikaitkan dengan hasil dan paparan. Jika itu hanya dikaitkan dengan salah satunya, itu bukan perancu, dan semua yang berhasil Anda lakukan adalah memperluas interval kepercayaan diri Anda.

Untuk mengeksplorasi jenis overmatching ini lebih lanjut, pertimbangkan studi kasus kontrol yang cocok dari paparan biner, dengan satu kontrol cocok dengan setiap kasus pada satu atau lebih pembaur. Setiap strata dalam analisis akan terdiri dari satu kasus dan satu kontrol kecuali beberapa strata dapat digabungkan. Jika kasing dan kontrol yang cocok terbuka atau tidak terbuka, satu margin dari tabel 2 x 2 adalah 0 ... sepasang subjek tidak akan menyumbangkan informasi apa pun untuk analisis. Jika seseorang bertingkat pada korelasi paparan, orang akan meningkatkan kemungkinan bahwa tabel tersebut akan terjadi dan dengan demikian cenderung meningkatkan informasi yang hilang dalam analisis bertingkat.

2: Ini sebagian dibahas oleh AndyW. Pencocokan pada faktor perantara akan membiaskan estimasi Anda, sebagaimana akan mencocokkan pada sesuatu yang dipengaruhi oleh paparan dan hasil. Ini pada dasarnya mengendalikan collider, dan teknik apa pun yang melakukannya akan membiasakan perkiraan Anda.

Namun, jika faktor pencocokan potensial dipengaruhi oleh paparan dan faktor pada gilirannya mempengaruhi penyakit (yaitu, merupakan variabel perantara), atau dipengaruhi oleh paparan dan penyakit, maka pencocokan pada faktor tersebut akan membiaskan baik efek kasar maupun yang disesuaikan. perkiraan. Dalam situasi ini, pencocokan kontrol kasus tidak lebih dari bentuk bias seleksi yang tidak dapat diperbaiki.

3: Ini lebih merupakan masalah desain penelitian. Pencocokan luas pada variabel yang tidak perlu Anda cocokkan dengan alasan 1 & 2 dapat menyebabkan Anda menolak kontrol yang mudah diperoleh (teman, keluarga, jejaring sosial terdekat, dll.) Karena jauh lebih sulit untuk mendapatkan kontrol yang dapat dicocokkan dengan set kovariat yang tidak perlu. Itu membutuhkan uang - uang yang bisa dihabiskan untuk lebih banyak mata pelajaran, paparan yang lebih baik atau penentuan penyakit, dll., Tanpa keuntungan yang cukup besar dalam hal bias atau presisi, dan memang telah mengancam keduanya.

Fomite
sumber
1
(+1) Respons yang bagus. Saya tidak begitu terkejut melihat bahwa buku teks Rothman & Greenland sekali lagi merupakan referensi yang baik untuk disimpan di meja kami, selalu mudah dijangkau.
chl
7

Sementara saya tidak tahu tentang istilah "terlalu cocok", satu contoh dari ide yang sama yang saya dengar dalam istilah Ekonomi dan Statistik bisa cocok dengan hasil "menengah". Lihat posting Andrew Gelman tentang masalah ini

Ini adalah masalah yang sama seperti yang dijelaskan di awal artikel yang Anda kutip ( Marsh et al., 2002 )

Jika eksposur itu sendiri mengarah ke perancu, atau memiliki status yang sama dengan itu, maka stratifikasi oleh perancu juga akan dikelompokkan berdasarkan eksposur, dan hubungan eksposur dengan penyakit akan dikaburkan. Ini disebut pencocokan berlebihan ...

Gelman memberikan contoh yang jelas secara konseptual dalam posting "Membuat anak laki-laki membuat Anda lebih konservatif". Dalam istilah yang sederhana (tidak ada contoh) itu hanya Anda memiliki arah sebab akibat Anda ke belakang.

Andy W
sumber
1
Baik. Dalam buku Josh Angrist Mostly Harmless Econometrics, ia merujuk pada fenomena yang sama dengan "kontrol yang buruk." Dia memberi contoh kemunduran upah pada pendidikan dan pekerjaan. Ini adalah regresi yang mengerikan karena teridentifikasi dari perbedaan dalam pendidikan dalam suatu pekerjaan (misalnya, jika pekerjaan itu adalah pengacara, itu tidak ada artinya untuk menganalisis perbedaan pendidikan itu) dan pendidikan adalah apa yang memungkinkan Anda untuk menjadi pengacara! Saya menduga bias pencocokan berlebihan mungkin seperti itu. Mungkin seorang epidiomologis akan datang untuk mengonfirmasi. Terima kasih atas tautan Gelman yang hebat, saya akan memeriksanya.
d_a_c321
1
Sangat menarik dan saya pikir ini adalah topik yang penting dan belum dibahas.
rolando2