Bagaimana cara saya menentukan apakah model survival dengan data yang hilang sesuai?

9

Terlalu menyederhanakan sedikit, saya memiliki sekitar satu juta catatan yang mencatat waktu masuk dan waktu keluar orang dalam sistem yang mencakup sekitar sepuluh tahun. Setiap catatan memiliki waktu masuk, tetapi tidak setiap catatan memiliki waktu keluar. Waktu rata-rata dalam sistem adalah ~ 1 tahun.

Waktu keluar yang hilang terjadi karena dua alasan:

  1. Orang tersebut belum meninggalkan sistem pada saat data ditangkap.
  2. Waktu keluar orang tersebut tidak direkam. Ini terjadi dengan mengatakan 50% dari catatan

Pertanyaan yang menarik adalah:

  1. Apakah orang menghabiskan lebih sedikit waktu dalam sistem, dan berapa banyak waktu lebih sedikit.
  2. Apakah lebih banyak waktu keluar direkam, dan berapa banyak.

Kita dapat memodelkan ini dengan mengatakan bahwa probabilitas bahwa jalan keluar direkam bervariasi secara linear dengan waktu, dan bahwa waktu dalam sistem memiliki Weibull yang parameternya bervariasi secara linear dengan waktu. Kami kemudian dapat membuat perkiraan kemungkinan maksimum dari berbagai parameter dan melihat hasilnya dan menganggapnya masuk akal. Kami memilih distribusi Weibull karena tampaknya digunakan dalam mengukur masa hidup dan menyenangkan untuk dikatakan sebagai ganti pas data lebih baik daripada mengatakan distribusi gamma.

Di mana saya harus mencari petunjuk tentang cara melakukan ini dengan benar? Kami agak mengerti secara matematis, tetapi tidak terlalu mahir secara statistik.

Deinst
sumber

Jawaban:

5

Cara dasar untuk melihat apakah data Anda adalah Weibull adalah dengan memetakan log bahaya kumulatif versus log kali dan melihat apakah garis lurus mungkin cocok. Bahaya kumulatif dapat ditemukan menggunakan estimator Nelson-Aalen non-parametrik. Ada diagnostik grafis serupa untuk regresi Weibull jika Anda mencocokkan data Anda dengan kovariat dan beberapa referensi mengikuti.

The Klein & Moeschberger teks cukup bagus dan mencakup banyak tanah dengan bangunan model / diagnostik untuk model parametrik dan semi-parametrik (meskipun sebagian besar yang terakhir). Jika Anda bekerja di R, buku Theneau cukup bagus (saya percaya dia menulis paket survival ). Ini mencakup banyak Cox PH dan model terkait, tapi saya tidak ingat apakah itu memiliki banyak cakupan model parametrik, seperti yang Anda bangun.

BTW, apakah ini sejuta subjek masing-masing dengan satu entri / keluar atau peristiwa masuk / keluar berulang untuk sekelompok orang yang lebih kecil? Apakah Anda mengkondisikan kemungkinan Anda memperhitungkan mekanisme sensor?

ars
sumber
Terima kasih, ini hanya apa yang saya cari. Ini pada dasarnya sejuta subjek masing-masing dengan waktu masuk dan keluar. Ya kami mengkondisikan untuk memperhitungkan sensor.
deinst
2

Anda dapat menggunakan model perkiraan untuk memprediksi waktu keluar untuk semua orang di sistem Anda. Anda kemudian dapat membandingkan perkiraan waktu keluar dengan waktu keluar yang sebenarnya (di mana Anda memiliki data ini) dan menghitung metrik seperti RMSE untuk menilai seberapa baik prediksi Anda yang pada gilirannya akan memberi Anda rasa kecocokan model. Lihat juga tautan ini .


sumber
1
Dengan poin millon dan model 8 parameter, uji goodness of fit seperti chi-squared memberi tahu saya bahwa pada dasarnya tidak ada kemungkinan bahwa model tersebut benar. (Yang tidak mengejutkan, karena ada faktor tak berujung yang mempengaruhi kenyataan yang tidak ada dalam model) RMSE memberi saya pengertian tentang seberapa baik model tersebut cocok dengan data, tetapi tidak memberi saya perasaan apakah ada model yang lebih baik
deinst
Nah untuk mengetahui apakah ada model yang lebih baik, Anda bisa bereksperimen dengan formulasi yang berbeda atau Anda bisa menggunakan berbagai plot (misalnya, waktu keluar vs waktu) untuk melihat apakah data konsisten dengan asumsi model Anda. Anda juga dapat merencanakan waktu keluar yang diprediksi untuk sampel kecil yang dipilih secara acak berhadapan dengan waktu aktual untuk ide peningkatan model.