Terlalu menyederhanakan sedikit, saya memiliki sekitar satu juta catatan yang mencatat waktu masuk dan waktu keluar orang dalam sistem yang mencakup sekitar sepuluh tahun. Setiap catatan memiliki waktu masuk, tetapi tidak setiap catatan memiliki waktu keluar. Waktu rata-rata dalam sistem adalah ~ 1 tahun.
Waktu keluar yang hilang terjadi karena dua alasan:
- Orang tersebut belum meninggalkan sistem pada saat data ditangkap.
- Waktu keluar orang tersebut tidak direkam. Ini terjadi dengan mengatakan 50% dari catatan
Pertanyaan yang menarik adalah:
- Apakah orang menghabiskan lebih sedikit waktu dalam sistem, dan berapa banyak waktu lebih sedikit.
- Apakah lebih banyak waktu keluar direkam, dan berapa banyak.
Kita dapat memodelkan ini dengan mengatakan bahwa probabilitas bahwa jalan keluar direkam bervariasi secara linear dengan waktu, dan bahwa waktu dalam sistem memiliki Weibull yang parameternya bervariasi secara linear dengan waktu. Kami kemudian dapat membuat perkiraan kemungkinan maksimum dari berbagai parameter dan melihat hasilnya dan menganggapnya masuk akal. Kami memilih distribusi Weibull karena tampaknya digunakan dalam mengukur masa hidup dan menyenangkan untuk dikatakan sebagai ganti pas data lebih baik daripada mengatakan distribusi gamma.
Di mana saya harus mencari petunjuk tentang cara melakukan ini dengan benar? Kami agak mengerti secara matematis, tetapi tidak terlalu mahir secara statistik.
sumber
Anda dapat menggunakan model perkiraan untuk memprediksi waktu keluar untuk semua orang di sistem Anda. Anda kemudian dapat membandingkan perkiraan waktu keluar dengan waktu keluar yang sebenarnya (di mana Anda memiliki data ini) dan menghitung metrik seperti RMSE untuk menilai seberapa baik prediksi Anda yang pada gilirannya akan memberi Anda rasa kecocokan model. Lihat juga tautan ini .
sumber