Hitung kemungkinan munculnya penyakit

8

Saya seorang dokter jadi tolong baik hati dengan saya dan pemahaman dasar saya tentang statistik.

Saya memiliki dataset yang terdiri dari pasien dan kunjungan mereka dan saya telah memberi label keberadaan mol tertentu di tangan kiri dan / atau kanan mereka dengan nilai {0,1} (0 = tidak ada dan 1 = sekarang). Dataset terlihat seperti ini:

** Saya menghapusnya karena jawaban diberikan; Saya dapat mengirimkannya atas permintaan baru

Jadi, itu berarti bahwa pasien A1-001 memiliki 6 kunjungan tanpa kehadiran tahi lalat di tangan kanannya selama semua kunjungan dan kehadiran tahi lalat di tangan kirinya dalam semua kunjungan kecuali yang pertama.

Saya tertarik menemukan kemungkinan tangan mengembangkan tahi lalat di antara hanya pasien yang mengembangkan tahi lalat di satu tangan dan menemukan kemungkinan mengembangkan tahi lalat di sisi lain (mengingat bahwa pasien sudah memiliki tahi lalat di sisi lain) .

Selain itu, saya ingin tahu berapa kemungkinan mengembangkan tahi lalat dalam kunjungan di antara pasien yang mengembangkan tahi lalat di beberapa titik di kedua tangan

Bisakah Anda membantu saya membuat model pertanyaan-pertanyaan sederhana ini?

laza
sumber
"Lebih jauh, saya ingin tahu berapa kemungkinan mengembangkan tahi lalat dalam kunjungan yang sama di antara pasien yang mengembangkan tahi lalat di beberapa titik di kedua tangan." - Tapi Anda mengkodekan tahi lalat per tangan sebagai ada atau tidak ada daripada menghitung jumlah mol, jadi jika seorang pasien sudah memiliki tahi lalat di masing-masing tangan, bagaimana mol tambahan akan terlihat dalam data?
Kodiologist
@Kodiologis Ya, saya hanya tertarik dengan keberadaan dan bukan jumlah tahi lalat. Jika seorang pasien sudah memiliki tahi lalat di masing-masing tangan, maka tidak mungkin memiliki tahi lalat tambahan: hanya mungkin untuk tetap dengan tahi lalat ini atau tahi lalat untuk menghilang.
laza
2
Memberikan kumpulan data lengkap dapat mengklarifikasi pertanyaan dan membantu menerima jawaban.
Todd D
@Todd Saya tidak mengerti bagaimana menyediakan seluruh dataset akan mengubah solusi untuk masalah ini. Saya bukan ahli matematika tapi saya percaya masalahnya sudah jelas bahkan dengan ukuran sampel ini. Saya kira menyelesaikan masalah untuk N = 3 (jumlah pasien) akan sama dengan memecahkan masalah untuk N = 100.
laza
1
@ Laza, matematika tidak sulit bagi matematikawan. Tapi Anda mengajukan masalah yang bukan tentang matematika dan bukannya mencoba memahami apa yang Anda maksud (itulah mengapa set data yang lebih besar diminta) ...... apa yang Anda maksud dengan "Saya ingin tahu apa kemungkinan mengembangkan tahi lalat dalam kunjungan yang sama di antara pasien yang mengembangkan tahi lalat di beberapa titik di kedua tangan. " ? Anda tidak menjawab pertanyaan itu dari Kodiologist,
Sextus Empiricus

Jawaban:

5

Saya pribadi merasa ini cocok untuk analisis kelangsungan hidup.

Anda memiliki orang tanpa mol di tangan tertentu pada awal periode (populasi berisiko Anda); Anda dapat memilih ini, dan Anda memiliki titik waktu untuk tindak lanjut dan apakah mereka disensor atau tidak (mengembangkan tahi lalat). Ini memberi Anda bahaya untuk kelompok apa pun yang Anda pilih.

Anda kemudian dapat menghitung rasio bahaya (misalnya untuk mengembangkan tahi lalat kanan pada orang dengan tahi lalat kiri pada awal, dibandingkan dengan yang tanpa). Ini dapat diekspresikan pada grafik Kaplan-Meier dan akan datang dengan interval kepercayaan.

James
sumber
Hai, James, saya pikir saya akan memberikan suntikan untuk lifelines.readthedocs.io/en/latest/… ini Bagaimana menurut Anda?
laza
Saya yakin itu baik-baik saja. Sementara saya suka python saya biasanya lebih suka R untuk statistik, tetapi ini tampaknya cukup didukung.
James
dapatkah Anda memberi saya dua atau dua petunjuk untuk membawa data ke format yang benar?
laza
Seperti dikatakan, Anda perlu tahu waktu orang diamati dan kapan mereka 'mati' (yaitu mendapat tahi lalat) atau terakhir kali mereka terlihat jika mereka tidak mendapat tahi lalat. Jadi untuk setiap pasien, lacak waktu dari tempat Anda pertama kali melihatnya tanpa tahi lalat, hingga saat mereka mendapat tahi lalat atau yang terakhir terlihat. Itu kolom 'T' di tautan contoh. Kolom 'E' adalah apakah mereka mendapat tahi lalat atau tidak. Anda kemudian membutuhkan 1 baris per pasien.
James
Tetapi apa yang terjadi jika pasien segera mendapat tahi lalat pada kunjungan pertama? Dan dalam pertanyaan lain, mengapa menurut Anda rantai Markov tidak cocok untuk masalah ini? Ini masalah transisi dan dari apa yang saya baca, mereka tampaknya sangat cocok untuk mengatasi masalah semacam ini.
laza
0

Tidak ada pemodelan yang harus dilakukan di sini, semua pertanyaan Anda adalah probabilitas kondisional sederhana.

Baiklah, karena orang tidak menghargai jawaban itu, Anda perlu mengklarifikasi beberapa hal.

Saya tertarik menemukan kemungkinan tangan mengembangkan tahi lalat di antara hanya pasien yang mengembangkan tahi lalat di satu tangan dan menemukan kemungkinan mengembangkan tahi lalat di sisi lain (mengingat bahwa pasien sudah memiliki tahi lalat di sisi lain) .

Apakah maksud Anda per kunjungan? Atau bahwa mereka tidak pernah mengembangkan tahi lalat? Dari contoh Anda:

Pasien 1 dan 3 mengembangkan tahi lalat di satu sisi. Pasien 1 tidak pernah mengembangkan tahi lalat di sisi lain tetapi pasien 3 melakukannya, sehingga Anda bisa membantah jawaban atas pertanyaan Anda adalah 50%. Sekarang, Anda juga bisa berargumen bahwa pasien 1 memiliki 4 pemeriksaan dengan 1 mol dan tidak pada yang lain dan pasien 3 memiliki 0 pemeriksaan dengan 1 mol dan bukan yang lain sehingga kemungkinannya 1/5 = 20%. Itu tergantung pada bagaimana Anda mendefinisikan pertanyaan Anda.

astel
sumber
Terimakasih atas balasan anda. Bisakah Anda membantu saya bahkan dengan itu? Aku akan sangat menghargainya. Namun, beberapa rekan saya mengatakan kepada saya untuk menggunakan pemodelan longitudinal untuk data atau statistik Bayesian. Ini tidak berlaku di sini saya kira?
laza
3
Posting ini tidak menjawab pertanyaan, karena pernyataan apa pun tentang probabilitas pada hakekatnya adalah model. Masalah penting adalah "model apa itu (atau seharusnya)?"
whuber
0

Secara pribadi, saya pikir Anda dapat mulai dengan mempelajari model linier multikovarian umum : https://cran.r-project.org/web/packages/mcglm/index.html

https://cran.r-project.org/web/packages/mcglm/vignettes/GLMExamples.html

http://cursos.leg.ufpr.br/mcglm4aed/slides/2-mcglm.html#(1)

Model-model tersebut digunakan ketika Anda memiliki lebih dari satu variabel respons dan mereka bukan gaussian, dan ini adalah kasus Anda, karena Anda memiliki dua variabel biner (mol atau tidak mol di masing-masing tangan). Juga, metode ini memungkinkan Anda menangani dependensi intra-individu, yang diberikan oleh struktur longitudinal. Di sini, longitudinal berarti tindakan berulang untuk individu yang sama, sepanjang waktu.

Saya pikir tautan di atas akan membantu Anda untuk memiliki ide bagus tentang teknik-teknik ini, dan mereka juga menyediakan implementasi komputasi dalam R.

Bruna w
sumber