Estimator untuk tingkat kejadian

8

Saat sedang menjalani kursus statistik untuk mahasiswa kedokteran, saya mengalami masalah terkait dengan angka kejadian. Konteks masalah adalah bab tentang distribusi Poisson. Dalam masalah ini, 2.300 perokok diikuti selama rentang 1 tahun di mana 24 di antaranya mengembangkan kanker paru-paru. Mereka kemudian ingin menghitung tingkat kejadian proses dan melanjutkan sebagai berikut:

Incidence rate=24230024/2

Pada awalnya, saya tidak mengerti mengapa mereka dikurangi 24/2, tapi saya berasumsi itu adalah beberapa koreksi untuk fakta bahwa karena 24 orang tersebut menderita kanker selama tahun tersebut, waktu mereka yang berisiko lebih pendek daripada mereka yang tidak mengembangkan penyakit. Tidak ada informasi lebih lanjut yang diberikan dalam buku teks itu sendiri, setidaknya tidak dalam masalah. Pencarian cepat mengkonfirmasi bahwa saya berpikir di jalur yang benar.

Tapi saya masih tidak mengerti alasan untuk formula itu. Bisakah seseorang mencerahkan saya? Juga, jika beberapa referensi yang dapat diakses oleh mahasiswa kedokteran dapat diberikan. Saya tidak keberatan memiliki referensi yang lebih teknis juga.

Raskolnikov
sumber
1
Saya tidak sepenuhnya memahami pertanyaan Anda - dapatkah Anda menyempurnakannya? Angka kejadian hanya itu, angka, dan dengan demikian memiliki waktu-orang "diekspos" dalam penyebut. Anda benar tentang 24/2, yang mencerminkan asumsi bahwa orang yang mengembangkan kanker paru-paru melakukannya pada titik tengah interval, dan dengan demikian menyensornya pada 6 bulan. Sebaliknya, Anda dapat memperkirakan rasio prevalensi (24/2300), tetapi prevalensi adalah fungsi dari insiden dan durasi penyakit, sehingga kurang bermanfaat jika Anda tertarik untuk mengidentifikasi penyebab penyakit.
DL Dahly
Tetapi mengapa asumsi ini baik-baik saja?
Raskolnikov
Hanya karena itu asumsi yang lebih baik daripada menyensor pada 3 atau 9 bulan, misalnya. Kecuali jika Anda memiliki semacam efek musiman, atau sesuatu yang serupa, tebakan terbaik Anda adalah titik tengah interval. Satu-satunya cara untuk memperbaiki ini adalah dengan mengumpulkan data Anda pada resolusi temporal yang lebih tinggi.
DL Dahly

Jawaban:

6

Saya mengusulkan pemodelan kejadian kanker sebagai proses Poisson. Berbagai kejadian (penampakan tumor) dimungkinkan dalam individu yang sama selama periode pengamatan. Jikaλ adalah tingkat penampilan tumor menurut tahun, probabilitas 0 kejadian adalah eλ, dan probabilitas 1 peristiwa atau lebih adalah p=1eλ.

Kamu ikuti nindividu selama setahun. Jumlah individu dengan 1 acara atau lebih adalahXBin(n,p). Jumlah yang diharapkan adalahE(X)=np=n(1eλ).

Sekarang kamu amati x acara dan ingin memperkirakan λ. Estimasi pertamap^=xn, kemudian λ^=log(1xn)xn+x22n2. Dengan invarian penaksir kemungkinan maksimum,λ^ adalah MLE dari λ.

Estimator Anda adalah x/n1x/2nxn+x22n2. Perbedaan antara kedua penaksir adalah tentangx3/6n3, yang sangat kecil jika x/nkecil. Saya kira ini memberikan beberapa pembenaran, bahkan jika beberapa pemodelan lain mungkin dapat mengarah langsung ke estimator Anda.

Elvis
sumber
4
@Raskolnikov dan Elvis (+1), perhatikan juga bahwa fraksi lanjutan standar untuk log(1z) terpotong pada hasil konvergen kedua log(1z)z/(1z/2) dan perkiraan ini selalu lebih baik daripada ekspansi deret Taylor orde kedua untuk kisaran zbunga.
kardinal
Sebenarnya, saya membuat pernyataan yang sama tetapi membuat kesalahan dengan menyamakan p dengan eλ. Itu sebabnya saya tidak dapat menemukan tautan dengan penaksir lainnya.
Raskolnikov
@Raskolnikov Saya berterima kasih atas pertanyaan yang bagus ini yang mengarah pada latihan yang bagus untuk murid-murid saya;) pseudo yang bagus juga
Elvis
@ kardinal dan edisi bagus!
Elvis
3

Dengan asumsi diagnosa kanker tersebar secara seragam sepanjang tahun, orang-orang yang didiagnosis terkena risiko didiagnosis (rata-rata) setengah tahun sebelum diagnosis itu.

Tautan Anda menyebutkan asumsi kejadian pada titik setengah jalan pada periode pengamatan tetapi tidak dari mana asalnya - yang hanya merupakan asumsi keseragaman. Asumsi ini tidak selalu masuk akal, dan ada kalanya hal itu dapat membuat perbedaan substantif. Saya akan merekomendasikan untuk mengetahui asumsi setiap kali Anda menggunakan formula, karena Anda harus mempertimbangkan kesesuaiannya dan jika itu tidak cocok, apakah itu cenderung memiliki dampak substantif pada estimasi (dalam hal ini, asumsi yang lebih baik tentang kejadian harus diselidiki)

Glen_b -Reinstate Monica
sumber
Jadi, hanya itu yang ada untuk itu? Asumsi keseragaman? Tetapi mengapa keseragaman diagnosis menjadi masalah? Mengapa tidak kemungkinan tertular penyakit, yang saya asumsikan akan lebih mungkin didistribusikan Poisson (setidaknya sebagai model nol)?
Raskolnikov
Asumsi keseragaman adalah asalnya, jadi ya, itu saja; dengan tidak adanya informasi lain (dan kadang-kadang bahkan di hadapannya) itu adalah asumsi umum dalam menghitung paparan risiko. Adapun sedikit tentang diagnosis, saya mengasumsikan data pada diagnosis, bukan kejadian, karena kami tidak mengamati kejadian yang tidak terdiagnosis - apa pun yang dianalisis adalah asumsi yang perlu diterapkan.
Glen_b -Reinstate Monica
Untuk lebih eksplisit, tautan Anda menyebutkan rumus tersebut berasal dari 'metode aktuaria'. Materi aktuaria yang relevan adalah elemen-elemen yang terpapar pada risiko yang cukup standar dalam setiap silabus aktuaria yang saya ketahui. Asumsi spesifik tentang keseragaman bukanlah sesuatu yang baru saja saya buat, itu sangat eksplisit dalam pelatihan aktuaria. Anda bertanya dari mana asalnya; tautannya menyebutkan metode aktuaria; yang pada gilirannya muncul dari pendekatan aktuaria standar untuk terpapar risiko.
Glen_b -Reinstate Monica