Imputasi variabel yang disensor

9

Saya memiliki dataset medis dengan sekitar 200 variabel. Salah satu variabel adalah penanda-bio (konsentrasi enzim tertentu). Distribusinya condong ke kanan, dan masalahnya adalah bahwa nilai di atas level tertentu disensor / terputus pada level itu. Jadi, sementara rata-rata variabel sekitar 10, nilai apa pun yang lebih besar dari 50 dicatat sebagai 50.

Saya ingin menambahkan nilai kontinu untuk nilai-nilai yang disensor itu. Saya menggunakan beberapa imputasi dengan paket mouse di R saat ini, meskipun sistem lain tersedia untuk saya dan saya terbuka untuk pendekatan lain. Sebuah pemikiran yang saya miliki adalah untuk mengkode ulang semua nilai yang disensor agar hilang dan kemudian menjalankan imputasi. Jika salah satu nilai imputasi yang awalnya disensor di bawah cut-off, maka mereka akan ditetapkan sebagai nilai cut-off.

Saya ingin mengetahui pendapat tentang ini, dan / atau metode yang lebih baik untuk menangani ini.

Robert Long
sumber
Apa peran yang akan dimainkan biomarker dalam analisis selanjutnya? Misalnya, apakah itu akan menjadi variabel penjelas, kovariat, atau variabel dependen dalam regresi? Mungkin saja Anda bisa menggunakan metode yang tidak memerlukan imputasi nilai. Anda harus mendukung metode seperti itu, karena jika tidak, Anda membuat WAG tentang bentuk ekor kanan yang disensor, yang - karena kemiringannya - dapat mengandung beberapa nilai yang berpengaruh dalam analisis.
whuber
@whuber, biomarker adalah variabel penjelas. Praktek normal dalam bidang ini adalah untuk menggambarkannya sebagai 0-1, 1-10, 10+ atau kadang-kadang hanya 0-1 dan 1+ (yaitu ditinggikan atau tidak ditinggikan). Saya punya ide untuk memasukkannya sebagai variabel penjelas kontinu. Meskipun dataset memiliki 200 variabel, panduan klinis dan pengalaman sebelumnya menyarankan untuk menggunakan 10 dari ini dalam model akhir, maka saya berpikir untuk menghitung nilai> 50 menggunakan beberapa variabel lainnya.
Robert Long

Jawaban:

5

Metode imputasi apa pun termasuk beberapa imputasi adalah bidikan dalam kegelapan jika Anda tidak dapat menghitung bagaimana data di atas 50 didistribusikan. Karena Anda memiliki 200 variabel, adakah di antara mereka yang terkait dengan biomarker? Jika Anda dapat menyesuaikan regresi untuk biomarker sebagai fungsi kovariat, Anda dapat menggunakan model itu untuk memprediksi nilai untuk yang terpotong. Anda bisa menerapkan kesalahan pada prediksi berdasarkan pada varian residual dalam model untuk menghasilkan beberapa imputasi dengan cara itu. Akan lebih masuk akal. Tentu saja ini mengasumsikan Anda dapat menemukan model yang valid dan bahwa residual memiliki nol mean dan varians konstan. Anda hanya akan cocok dengan nilai biomarker yang tidak terpotong untuk membangun model.

Michael R. Chernick
sumber