Pencocokan skor kecenderungan setelah beberapa kali imputasi

34

Saya merujuk pada makalah ini : Hayes JR, Groner JI. "Menggunakan skor imputasi dan kecenderungan ganda untuk menguji efek kursi mobil dan penggunaan sabuk pengaman pada tingkat keparahan cedera dari data registrasi trauma." J Pediatr Surg. 2008 Mei; 43 (5): 924-7.

Dalam penelitian ini, beberapa imputasi dilakukan untuk mendapatkan 15 set data lengkap. Skor kecenderungan kemudian dihitung untuk setiap dataset. Kemudian, untuk setiap unit pengamatan, sebuah catatan dipilih secara acak dari salah satu dari 15 dataset yang telah dilengkapi (termasuk skor kecenderungan terkait) sehingga menciptakan satu data akhir tunggal yang kemudian dianalisis dengan pencocokan skor kecenderungan.

Pertanyaan saya adalah: Apakah ini cara yang valid untuk melakukan pencocokan skor kecenderungan berikut beberapa kali imputasi? Adakah cara alternatif untuk melakukannya?

Untuk konteks: Dalam proyek baru saya, saya bertujuan untuk membandingkan efek dari 2 metode pengobatan menggunakan pencocokan skor kecenderungan. Ada data yang hilang dan saya bermaksud menggunakan MICEpaket dalam R untuk menghitung nilai yang hilang, kemudian twanguntuk melakukan pencocokan skor kecenderungan, dan kemudian lme4untuk menganalisis data yang cocok.

Pembaruan1:

Saya telah menemukan makalah ini yang mengambil pendekatan yang berbeda: Mitra, Robin dan Reiter, Jerome P. (2011) Skor kecenderungan yang cocok dengan kovariat yang hilang melalui imputasi berulang berurutan, berulang [Kertas Kerja]

Dalam makalah ini penulis menghitung skor kecenderungan pada semua dataset yang diperhitungkan dan kemudian mengumpulkannya dengan rata-rata, yang merupakan semangat beberapa imputasi menggunakan aturan Rubin untuk estimasi titik - tetapi apakah itu benar-benar berlaku untuk skor kecenderungan?

Akan sangat menyenangkan jika siapa pun di CV dapat memberikan jawaban dengan komentar tentang 2 pendekatan berbeda ini, dan / atau yang lainnya ....

Joe King
sumber

Jawaban:

20

Hal pertama yang saya katakan adalah, bagi saya, metode 1 (pengambilan sampel) tampaknya tanpa banyak manfaat - itu membuang manfaat imputasi berganda, dan mengurangi menjadi imputasi tunggal untuk setiap pengamatan, seperti disebutkan oleh Stas. Saya tidak dapat melihat keuntungan dalam menggunakannya.

Ada diskusi yang sangat baik tentang isu-isu seputar analisis skor kecenderungan dengan data yang hilang di Hill (2004): Hill, J. "Mengurangi Bias dalam Estimasi Efek Pengobatan dalam Studi Observasional yang Menderita Data yang Hilang" ISERP Working Papers, 2004. Dapat diunduh dari di sini .

Makalah ini mempertimbangkan dua pendekatan untuk menggunakan imputasi ganda (dan juga metode lain untuk menangani data yang hilang) dan skor kecenderungan:

  • rata-rata skor kecenderungan setelah beberapa kali imputasi, diikuti oleh inferensial kausal (metode 2 pada posting Anda di atas)

  • inferensial kausal menggunakan setiap set skor kecenderungan dari imputasi berganda diikuti oleh rata-rata estimasi kausal.

Selain itu, makalah ini mempertimbangkan apakah hasilnya harus dimasukkan sebagai prediktor dalam model imputasi.

Hill menegaskan bahwa sementara beberapa imputasi lebih disukai daripada metode lain dalam berurusan dengan data yang hilang, secara umum, tidak ada prioritas.alasan untuk memilih salah satu dari teknik ini daripada yang lain. Namun, mungkin ada alasan untuk memilih rata-rata skor kecenderungan, terutama ketika menggunakan algoritma pencocokan tertentu. Hill melakukan studi simulasi dalam makalah yang sama dan menemukan bahwa rata-rata skor kecenderungan sebelum inferensi kausal, ketika memasukkan hasil dalam model imputasi menghasilkan hasil terbaik dalam hal kesalahan kuadrat rata-rata, dan rata-rata skor pertama, tetapi tanpa hasil dalam model imputasi, menghasilkan hasil terbaik dalam hal bias rata-rata (perbedaan absolut antara perkiraan dan efek pengobatan sebenarnya). Secara umum, disarankan untuk memasukkan hasil dalam model imputasi (misalnya lihat di sini ).

Jadi sepertinya metode 2 Anda adalah jalan yang harus ditempuh.

Robert Long
sumber
1
Saya mengerti metode nomor 2, tetapi saya bingung bagaimana menerapkannya dalam R. Apakah ada yang punya referensi untuk mengarahkan saya ke?
sam
2
Kode R untuk kedua metode disediakan dalam sketsa untuk cobaltpaket yang berjudul "Menggunakan kobalt dengan Data yang Rumit". Anda dapat mengaksesnya di sini: CRAN.R-project.org/package=cobalt
Noah
13

Mungkin ada benturan dua paradigma. Beberapa imputasi adalah solusi Bayesian yang sangat berbasis model: konsep imputasi yang tepat pada dasarnya menyatakan bahwa Anda perlu mengambil sampel dari distribusi posterior data yang terdefinisi dengan baik, jika tidak, Anda akan kacau. Pencocokan skor kecenderungan, di sisi lain, adalah prosedur semi-parametrik: setelah Anda menghitung skor kecenderungan Anda (tidak peduli bagaimana, Anda bisa menggunakan estimasi kepadatan kernel, belum tentu model logit), Anda dapat melakukan sisanya dengan hanya mengambil perbedaan antara pengamatan yang diobati dan yang tidak diobati dengan skor kecenderungan yang sama, yang sekarang agak non-parametrik, karena tidak ada model yang tersisa yang mengontrol kovariat lainnya. Saya tidakAbadie dan Imbens (2008) membahas bahwa tidak mungkin untuk benar-benar mendapatkan kesalahan standar dalam beberapa situasi yang cocok). Saya akan memberi lebih banyak kepercayaan pada pendekatan yang lebih halus seperti pembobotan oleh kecenderungan terbalik. Referensi favorit saya adalah "Mostly Harmless Econometrics" , subtitle "An Empiricist Companion", dan ditujukan untuk para ekonom, tetapi saya pikir buku ini harus menjadi bacaan wajib bagi ilmuwan sosial lainnya, kebanyakan ahli biostatistik, dan ahli statistik non-bio juga demikian bahwa mereka tahu bagaimana disiplin ilmu lain mendekati analisis data.

Bagaimanapun, hanya menggunakan satu dari 15 jalur data lengkap yang disimulasikan per pengamatan setara dengan imputasi tunggal. Akibatnya, Anda kehilangan efisiensi dibandingkan dengan 15 set data yang lengkap, dan Anda tidak dapat memperkirakan kesalahan standar dengan benar. Sepertinya prosedur yang kurang bagi saya, dari sudut manapun.

Tentu saja, kami dengan senang hati menyapu asumsi bahwa kedua model imputasi ganda dan model kecenderungan adalah benar dalam arti memiliki semua variabel yang tepat dalam semua bentuk fungsional yang tepat. Ada sedikit cara untuk memeriksa itu (walaupun saya akan senang mendengar sebaliknya tentang tindakan diagnostik untuk kedua metode ini).

Tugas
sumber
(+1) Khususnya bagi saya yang tidak merasa nyaman dengan diskontinuitas yang diperkenalkan oleh penerapan literal matching (temukan kontrol dengan nilai skor kecenderungan terdekat, dan abaikan sisanya) . Skor kecenderungan selalu mengejutkan saya sebagai prosedur yang cukup kasar.
kardinal
@ kardinal, lihat pembaruan.
Tugas
Saya sebenarnya telah melihat lebih banyak kritik terhadap IPTW daripada yang saya dapatkan dari pencocokan dengan metode lain (saya perlu membaca). Lihat Bobot regresi berdasarkan skor kecenderungan ( Freedman & Berk, 2008 ), dan untuk contoh terapan lihat Bjerk, 2009 . Saya tidak begitu yakin mengapa Anda merekomendasikan Ekonometrik yang Tidak Berbahaya sebagai respons di sini, tetapi ini adalah rekomendasi yang bagus untuk siapa saja yang tertarik dalam penelitian observasional.
Andy W
@Andy, karya Freedman & Berk tampaknya berurusan dengan situasi yang jauh lebih sederhana ketika Anda dapat memodelkan semuanya dalam regresi logistik. Pemahaman saya adalah bahwa metode seperti PSM diterapkan dalam situasi yang lebih berantakan ketika Anda memiliki lebih banyak kovariat, dan Anda tidak mempercayai model dengan cukup baik untuk menganggapnya ditentukan dengan benar. Mereka memperhatikan bahwa situasinya menguntungkan untuk pembobotan, tetapi saya pikir itu menguntungkan untuk model dibandingkan dengan metode lain yang mungkin.
Tugas
2
Karena data Anda tidak iid, dan teorema kemungkinan besar tentang kesetaraan Hessian terbalik dan produk luar gradien tidak lagi berlaku, dan keduanya tidak merupakan estimasi varian yang konsisten. Orang perlu menggunakan penaksir varians sandwich, alias penaksir linierisasi dalam statistik survei, alias penaksir kuat putih dalam ekonometrik.
Tugas
10

Saya tidak bisa berbicara dengan aspek teoretis dari pertanyaan itu, tetapi saya akan memberikan pengalaman saya menggunakan model PS / IPTW dan beberapa imputasi.

  1. Saya belum pernah mendengar seseorang menggunakan kumpulan data yang diperhitungkan secara multipel dan pengambilan sampel acak untuk membangun satu set data tunggal. Itu tidak selalu berarti itu salah tetapi itu adalah pendekatan yang aneh untuk digunakan. Kumpulan data juga tidak cukup besar sehingga Anda harus kreatif untuk menjalankan 3-5 model alih-alih hanya satu untuk menghemat waktu dan komputasi.
  2. Aturan Rubin dan metode pengumpulan adalah alat yang cukup umum. Mengingat hasil gabungan, yang dihitung secara berganda dapat dihitung hanya dengan menggunakan varians dan taksiran, tidak ada alasan saya dapat melihat bahwa itu tidak dapat digunakan untuk proyek Anda - membuat data yang diperhitungkan, melakukan analisis pada setiap set, dan kemudian mengumpulkan. Ini adalah apa yang telah saya lakukan, apa yang telah saya lakukan, dan kecuali Anda memiliki alasan khusus untuk tidak melakukannya, saya tidak dapat benar-benar melihat alasan untuk menggunakan sesuatu yang lebih eksotis - terutama jika Anda tidak mengerti apa terjadi dengan metode ini.
Fomite
sumber
+1 Ini adalah pertanyaan yang sulit untuk memberikan jawaban yang baik karena sepertinya makalah yang sangat khusus. Namun selain mengklaim kehilangan hadiah pada pertanyaan serupa sebelumnya, OP menambahkan pertanyaan yang meminta solusi yang dimigrasikan ke meta. Saya membuat komentar serupa dengan Anda dalam jawaban saya di sana. Saya sangat meragukan tentang sampel dari kumpulan data yang terdalikan.
Michael R. Chernick
Terima kasih! Apakah Anda memiliki referensi untuk tempat metode 2 telah digunakan?
Joe King
@ JoKing Sedih, bukan dari atas kepalaku.
Fomite