Saya punya pertanyaan metodologis, dan karenanya tidak ada dataset sampel yang dilampirkan.
Saya berencana untuk melakukan skor kecenderungan regresi Cox yang disesuaikan yang bertujuan untuk memeriksa apakah obat tertentu akan mengurangi risiko hasil. Penelitian ini bersifat observasional, terdiri dari 10.000 orang.
Kumpulan data berisi 60 variabel. Saya menilai bahwa 25 di antaranya mungkin mempengaruhi alokasi pengobatan. Saya tidak akan pernah menyesuaikan semua 25 dari ini dalam regresi Cox, tapi saya pernah mendengar bahwa Anda dapat memasukkan banyak variabel sebagai prediktor dalam skor kecenderungan dan kemudian hanya menyertakan subkelas skor kecenderungan dan variabel pengobatan dalam regresi Cox.
(kovariat yang tidak akan sama setelah penyesuaian skor prop tentu saja harus dimasukkan dalam regresi Cox).
Intinya, apakah benar-benar pintar untuk memasukkan banyak prediktor dalam skor prop?
@ Dimitriy V. Masterov Terima kasih telah berbagi fakta penting ini. Sebaliknya terhadap buku dan artikel yang mempertimbangkan kerangka kerja regresi lainnya, saya tidak melihat pedoman (membaca buku Rosenbaums) tentang pemilihan model dalam analisis skor kecenderungan. Sementara buku teks standar / artikel ulasan tampaknya selalu merekomendasikan pemilihan variabel ketat dan menjaga jumlah prediktor rendah, saya belum melihat banyak dari diskusi ini dalam analisis skor prop. Anda menulis: (1) "Wawasan teoretis, pengetahuan institusional, dan penelitian yang baik harus memandu pemilihan Xs". Saya setuju tetapi ada keadaan di mana kita memiliki variabel yang ada dan tidak benar-benar tahu (tetapi mungkin saja) jika variabel tersebut mempengaruhi alokasi atau hasil pengobatan. Sebagai contoh: saya harus memasukkan fungsi ginjal, sebagai ukuran dengan laju filtrasi, dalam skor prop yang bertujuan untuk menyesuaikan untuk pengobatan statin. Pengobatan statin tidak ada hubungannya dengan fungsi ginjal dan saya sudah memasukkan berbagai variabel yang akan mempengaruhi pengobatan statin. Tetapi masih tergoda untuk memasukkan fungsi ginjal; mungkin lebih menyesuaikan. Sekarang beberapa orang akan mengatakan bahwa itu harus dimasukkan karena itu mempengaruhi hasil, tetapi saya bisa memberikan Anda contoh lain (seperti variabel biner perkotaan / pedesaan yang tinggal) dari variabel yang tidak mempengaruhi pengobatan atau hasil, sejauh yang kami tahu. Tapi saya ingin memasukkannya, asalkan tidak t efek presisi skor prop. (2)"Termasuk X yang dipengaruhi oleh pengobatan, baik ex post atau ex ante sebagai antisipasi pengobatan, akan membatalkan asumsi". Saya tidak yakin apa yang Anda maksud di sini. Tetapi jika saya mempelajari efek statin pada hasil kardiovaskular, saya akan memasukkan berbagai pengukuran lipid darah dalam skor kecenderungan. Lipid darah dipengaruhi oleh perawatan. Saya kira saya salah mengerti pernyataan ini.
@statsRus terima kasih telah berbagi fakta, terutama apa yang Anda sebut "catatan tentang memilih input". Saya pikir saya beralasan seperti halnya Anda.
Sayangnya metode skor prop membahas berbagai strategi penyesuaian daripada strategi pemilihan model. Mungkin model yang cocok tidak penting. Jika itu masalahnya, saya akan menyesuaikan untuk setiap variabel yang tersedia yang mungkin mempengaruhi hasil dan alokasi perawatan sedikit pun. Saya bukan ahli statis, tetapi jika model fit tidak penting maka saya ingin menyesuaikan untuk semua variabel yang mungkin mempengaruhi alokasi dan hasil pengobatan. Ini dalam banyak kasus akan berarti termasuk variabel yang akan dipengaruhi oleh pengobatan.
Selain itu, beberapa orang menyarankan bahwa regresi Cox berikutnya hanya boleh mencakup variabel perlakuan dan subkelas skor prop. Sementara yang lain menyarankan bahwa penyesuaian cox harus menyertakan skor prop tambahan untuk semua variabel lain yang akan Anda sesuaikan.
sumber
Dengan tidak adanya pengetahuan materi pelajaran, overinclusion variabel umumnya lebih baik daripada underinclusion, dan ada sedikit alasan untuk melakukan pemilihan model untuk membangun PS. Yang lebih penting adalah membangun model yang fleksibel. Pendekatan default saya adalah spline setiap variabel kontinu dan tidak melihatP -nilai untuk variabel dalam PS, yaitu, saya menggunakan model regresi logistik aditif fleksibel.
Ada banyak keuntungan dari penyesuaian kovariat menggunakan logit PS. Saya biasanya membuat logit PS untuk dimasukkan sebagai variabel penyesuaian kebebasan berganda, setelah melakukan uji tuntas terkait wilayah yang tidak tumpang tindih. Lihat http://www.citeulike.org/user/harrelfe/article/13340175 dan http://www.citeulike.org/user/harrelfe/article/13265389 dan lebih banyak artikel di http://www.citeulike.org/ pengguna / harrelfe / tag / kecenderungan-skor .
Anda harus memastikan untuk memasukkan kovariat terpisah sebagai prediktor yang kuatY karena PS hanya untuk penyesuaian bias, bukan untuk menangkap heterogenitas hasil.
Saya ragu dengan metode pencocokan apa pun yang menghasilkan membuang observasi yang cocok atau yang sangat bergantung pada urutan dataset. Pengamatan yang dibuang memiliki banyak pendapat tentang bagaimana efek kovariat harus diperkirakan.
sumber
Wawasan teoretis, pengetahuan institusional, dan penelitian yang baik di lapangan harus menjadi panduan Anda tentang apaX s untuk mencocokkan. Tidak ada prosedur pemilihan variabel deterministik yang akan memberi tahu Anda variabel mana yang harus dipilih.
Berikut ini beberapa pedoman umum. Asumsi Independen Bersyarat (CIA) akan dipenuhi jikaX termasuk semua variabel yang mempengaruhi partisipasi (dan bukan keduanya, tetapi keduanya) dan hasil. TermasukX S dipengaruhi oleh perawatan, baik ex post atau ex antedalam mengantisipasi pengobatan, akan membatalkan anggapan tersebut. Misalnya, jika seorang agen tahu bahwa vaksinnya akan datang, ia dapat menyesuaikan prilaku yang diambilnya. Termasuk instrumen - variabel yang mempengaruhi partisipasi dan bukan hasil - juga merupakan ide yang buruk. Mereka tidak akan membantu dengan bias seleksi dan dapat memperburuk masalah dukungan secara drastis. Misalnya, jika beberapa orang dianjurkan untuk melakukan perawatan, Anda tidak ingin mengkondisikan itu. Dimasukkannya variabel yang tidak relevan dalam spesifikasi skor kecenderungan dapat meningkatkan varians karena baik beberapa yang dirawat harus dibuang dari analisis atau unit kontrol harus digunakan lebih dari sekali atau karena bandwidth harus meningkat. Singkatnya, pendekatan wastafel dapur jelas tidak dianjurkan.
CIA tidak dapat diuji tanpa data eksperimental atau asumsi "identifikasi berlebihan" (seperti dalam kasus tes pra-program atau tes plasebo palsu lainnya). Jika Anda memiliki cukup data historis, saya pasti akan mencoba yang terakhir pada set Anda yang dikuratori dengan cermat.
Tanggapan untuk mengedit:
Saya tidak dapat mengomentari ginjal karena itu terlalu jauh di luar daerah saya (selain pai, yang saya tahu sesuatu tentang). Urban tampak seperti variabel yang mempengaruhi partisipasi dan hasil melalui biaya yang terkait dengan perjalanan ke rumah sakit untuk perawatan dan pemeriksaan. Mungkin mengambil beberapa hal yang tidak dapat diobservasi yang membuat kita terjaga di malam hari. Kisah antisipasi yang ada dalam pikiran saya adalah bahwa orang dapat menyesuaikan perilaku mereka jika mereka tahu mereka akan diperlakukan di masa depan, misalnya dengan mengubah diet mereka.
sumber
Karena model skor kecenderungan adalah murni prediksi - Anda tidak tertarik pada koefisien apa pun - saya selalu memahaminya daripada Anda dapat memasukkan semua variabel Anda yang memengaruhi entri dan hasil kohort. Anda dapat memutar variabel-variabel ini sesuai keinginan - kuadratkan, rangkum, semua jenis interaksi, dll. - selama Anda meningkatkan kualitas prediktif model Anda.
Secara teori, Anda bahkan tidak perlu khawatir tentang data bertahan untuk model prediksi Anda karena Anda tidak memiliki keinginan untuk menggeneralisasi hasil ini melewati sampel Anda (pada dasarnya, risiko 'overfitting' bukan masalah). Akhirnya, Anda tidak perlu membatasi diri pada regresi logistik; saat Anda memodelkan keluaran biner, Anda bahkan mungkin menggunakan model GAM - pada dasarnya, apa saja untuk meningkatkan tingkat prediksi.
(Saya harus menambahkan sebagai catatan berlawanan dengan titik @statsRus tentang penggunaan: dalam pengalaman saya adalah para ilmuwan komputer yang menggunakan semua variabel sementara para ahli statistik yang mempertimbangkan masing-masing dengan cermat. Saya kira latar belakang kerja yang berbeda menghasilkan kebiasaan kerja yang berbeda.)
Mengenai penggunaan skor, umumnya tidak disarankan untuk menggunakannya sebagai kovariat - memiliki dampak yang lebih kecil - dan tentu saja tidak bersama dengan variabel yang digunakan untuk membuat variabel penilaian. Argumen mungkin dibuat jika, dalam skor kecenderungan, Anda mengkategorikan variabel kontinu - misalnya usia - di mana Anda kemudian dapat menyertakan versi kontinu dalam model tetapi benar-benar, jangan mengategorikan variabel tempat pertama ...
Menggunakan skor untuk pencocokan (dengan kaliper - terutama pencocokan variabel 1: N) populer tetapi saya percaya teknik yang paling berdampak adalah sebagai Inverse Proportional Treatment Weight (IPTW) - walaupun saya belum pernah menggunakan metode ini dan saya tidak ingat bagaimana caranya. berhasil.
Coba lihat karya Peter C. Austin di University of Toronto - dia menulis banyak makalah tentang skor kecenderungan. Ini salah satu yang cocok misalnya.
sumber