Saya memiliki dataset medis dengan sekitar 200 variabel. Salah satu variabel adalah penanda-bio (konsentrasi enzim tertentu). Distribusinya condong ke kanan, dan masalahnya adalah bahwa nilai di atas level tertentu disensor / terputus pada level itu. Jadi, sementara rata-rata variabel sekitar 10, nilai apa pun yang lebih besar dari 50 dicatat sebagai 50.
Saya ingin menambahkan nilai kontinu untuk nilai-nilai yang disensor itu. Saya menggunakan beberapa imputasi dengan paket mouse di R saat ini, meskipun sistem lain tersedia untuk saya dan saya terbuka untuk pendekatan lain. Sebuah pemikiran yang saya miliki adalah untuk mengkode ulang semua nilai yang disensor agar hilang dan kemudian menjalankan imputasi. Jika salah satu nilai imputasi yang awalnya disensor di bawah cut-off, maka mereka akan ditetapkan sebagai nilai cut-off.
Saya ingin mengetahui pendapat tentang ini, dan / atau metode yang lebih baik untuk menangani ini.
sumber
Jawaban:
Metode imputasi apa pun termasuk beberapa imputasi adalah bidikan dalam kegelapan jika Anda tidak dapat menghitung bagaimana data di atas 50 didistribusikan. Karena Anda memiliki 200 variabel, adakah di antara mereka yang terkait dengan biomarker? Jika Anda dapat menyesuaikan regresi untuk biomarker sebagai fungsi kovariat, Anda dapat menggunakan model itu untuk memprediksi nilai untuk yang terpotong. Anda bisa menerapkan kesalahan pada prediksi berdasarkan pada varian residual dalam model untuk menghasilkan beberapa imputasi dengan cara itu. Akan lebih masuk akal. Tentu saja ini mengasumsikan Anda dapat menemukan model yang valid dan bahwa residual memiliki nol mean dan varians konstan. Anda hanya akan cocok dengan nilai biomarker yang tidak terpotong untuk membangun model.
sumber