Saat sedang menjalani kursus statistik untuk mahasiswa kedokteran, saya mengalami masalah terkait dengan angka kejadian. Konteks masalah adalah bab tentang distribusi Poisson. Dalam masalah ini, 2.300 perokok diikuti selama rentang 1 tahun di mana 24 di antaranya mengembangkan kanker paru-paru. Mereka kemudian ingin menghitung tingkat kejadian proses dan melanjutkan sebagai berikut:
Pada awalnya, saya tidak mengerti mengapa mereka dikurangi , tapi saya berasumsi itu adalah beberapa koreksi untuk fakta bahwa karena 24 orang tersebut menderita kanker selama tahun tersebut, waktu mereka yang berisiko lebih pendek daripada mereka yang tidak mengembangkan penyakit. Tidak ada informasi lebih lanjut yang diberikan dalam buku teks itu sendiri, setidaknya tidak dalam masalah. Pencarian cepat mengkonfirmasi bahwa saya berpikir di jalur yang benar.
Tapi saya masih tidak mengerti alasan untuk formula itu. Bisakah seseorang mencerahkan saya? Juga, jika beberapa referensi yang dapat diakses oleh mahasiswa kedokteran dapat diberikan. Saya tidak keberatan memiliki referensi yang lebih teknis juga.
sumber
Jawaban:
Saya mengusulkan pemodelan kejadian kanker sebagai proses Poisson. Berbagai kejadian (penampakan tumor) dimungkinkan dalam individu yang sama selama periode pengamatan. Jikaλ adalah tingkat penampilan tumor menurut tahun, probabilitas 0 kejadian adalah e- λ , dan probabilitas 1 peristiwa atau lebih adalah p = 1 -e- λ .
Kamu ikutin individu selama setahun. Jumlah individu dengan 1 acara atau lebih adalahX∼ B i n ( n , p ) . Jumlah yang diharapkan adalahE( X) = n p = n ( 1 -e- λ) .
Sekarang kamu amatix acara dan ingin memperkirakan λ . Estimasi pertamahal^=xn , kemudian λ^= - log( 1 -xn) ≈xn+x22n2 . Dengan invarian penaksir kemungkinan maksimum,λ^ adalah MLE dari λ .
Estimator Anda adalahx / n1 - x / 2 n≈xn+x22n2 . Perbedaan antara kedua penaksir adalah tentangx3/ 6n3 , yang sangat kecil jika x / n kecil. Saya kira ini memberikan beberapa pembenaran, bahkan jika beberapa pemodelan lain mungkin dapat mengarah langsung ke estimator Anda.
sumber
Dengan asumsi diagnosa kanker tersebar secara seragam sepanjang tahun, orang-orang yang didiagnosis terkena risiko didiagnosis (rata-rata) setengah tahun sebelum diagnosis itu.
Tautan Anda menyebutkan asumsi kejadian pada titik setengah jalan pada periode pengamatan tetapi tidak dari mana asalnya - yang hanya merupakan asumsi keseragaman. Asumsi ini tidak selalu masuk akal, dan ada kalanya hal itu dapat membuat perbedaan substantif. Saya akan merekomendasikan untuk mengetahui asumsi setiap kali Anda menggunakan formula, karena Anda harus mempertimbangkan kesesuaiannya dan jika itu tidak cocok, apakah itu cenderung memiliki dampak substantif pada estimasi (dalam hal ini, asumsi yang lebih baik tentang kejadian harus diselidiki)
sumber