Misalkan penyakit tertentu () memiliki prevalensi . Juga anggaplah suatu gejala tertentu () memiliki prevalensi (pada populasi umum = orang dengan penyakit ituD dan orang-orang tanpa penyakit itu [mungkin dengan penyakit lain, tetapi itu tidak penting]) dari . Dalam penelitian sebelumnya, ditemukan bahwa probabilitas bersyarat (probabilitas untuk memiliki gejala , mengingat penyakitnya adalah ).
Pertanyaan pertama : Bisa jadi diartikan setara dengan prevalensi gejala pada kelompok orang yang menderita penyakit tersebut ?
Pertanyaan kedua : Saya ingin membuat dalam R dataset, yang menunjukkan bahwa:
Bagaimana cara melakukannya? Jika saya menggunakan sample
fungsi saja, dataset saya kurang informasi itu:
symptom <- sample(c("yes","no"), 1000, prob=c(0.005, 0.995), rep=T)
disease <- sample(c("yes","no"), 1000, prob=c(0.002, 0.998), rep=T)
Jadi pertanyaan saya adalah: bagaimana cara membuat dataset yang baik, termasuk probabilitas bersyarat yang saya inginkan?
EDIT : Saya memposting pertanyaan yang sama juga di stackoverflow.com ( /programming/7291935/how-to-create-a-dataset-with-conditional-probability ), karena, menurut pendapat saya, pertanyaan saya diwarisi untuk program bahasa R, tetapi juga untuk teori statistik.
sumber
Jawaban:
Anda tahu probabilitas marginal berikut
dan
a/(a+b) = 0.3
begitulah jadinyadan memang
a/(a+c) = 0.18
seperti yang Anda nyatakan.Jadi di R Anda bisa mengkodekan sesuatu seperti
meskipun Anda harus mencatat bahwa 1000 adalah sampel kecil ketika salah satu peristiwa memiliki probabilitas 0,0009 terjadi.
sumber
The
table
mengembalikan fungsi matriks-seperti objek:Jadi Pr (D | S = "yes") =
Saya mengubah masalah karena pertama kali saya menjalankannya dengan parameter Anda, saya mendapat:
Dan saya pikir Pr (D | S = "yes") dari 0 agak membosankan. Jika Anda akan menjalankan ini berkali-kali Anda harus membangun suatu fungsi dan menggunakan fungsi itu dengan
replicate
fungsi tersebut.Berikut adalah metode membangun dataset yang menerapkan probabilitas penyakit yang berbeda pada kelompok simtomatik yang 3 kali lebih tinggi daripada yang digunakan pada kelompok asimptomatik:
sumber
Saya berpendapat bahwa pertanyaan Anda tidak terlalu tergantung pada bahasa R, dan lebih tepat di sini, karena - jujur - generasi data seperti ini sebagian besar adalah tugas statistik, bukan pemrograman.
Pertanyaan pertama: p (S | D) adalah risiko memiliki gejala S dalam suatu populasi dengan penyakit D. Hal ini dapat secara langsung sebanding dengan prevalensi dengan peringatan tertentu, seperti gejala yang tidak berdampak pada durasi penyakit. Pertimbangkan contoh berikut: Salah satu gejala SuperEbola adalah Kematian Instan, dengan p (Kematian | Super Ebola) = 0,99. Di sini, prevalensi gejala Anda sebenarnya akan sangat rendah (memang, 0,00) karena tidak ada orang yang dapat Anda sampel dengan penyakit tersebut yang memiliki gejalanya.
Pertanyaan Kedua: Saya akan kembali ke ini dengan cara yang agak bertahap. Pertama, hitung risiko dasar gejala yang Anda perlukan untuk mendapatkan 0,15 pada seluruh populasi, dengan mempertimbangkan bahwa 0,03% dari populasi Anda akan berada pada tingkat yang lebih tinggi. Maka pada dasarnya menghasilkan dua probabilitas:
Kemudian menghasilkan dua angka acak yang seragam. Jika yang pertama kurang dari 0,003, mereka menderita penyakit ini. Itu kemudian dimasukkan ke dalam perhitungan risiko untuk yang kedua, dan jika angka acak untuk masing-masing individu kurang dari risiko mereka, mereka punya gejalanya.
Ini adalah semacam cara lamban, tidak sopan untuk melakukan sesuatu, dan kemungkinan seseorang akan datang dengan pendekatan yang jauh lebih efisien. Tapi saya menemukan dalam studi simulasi mengeja setiap langkah dalam kode, dan menjaganya agar tetap dekat dengan bagaimana saya akan melihat kumpulan data di dunia nyata berguna.
sumber
Pertanyaan pertama:
Ya tentu saja itu hampir definisi, meskipun Anda akan memiliki beberapa kesalahan yang terkait dengan ukuran sampel Anda. yaitu ini hanya tepat pada ukuran sampel yang tak terbatas.
Pertanyaan kedua:
Ini disebut Bayes Theorem , tapi saya kira Anda sudah tahu itu. Sekarang mengingat informasi yang Anda berikan, saya mendapatkan probabilitas P (D | S) sebagai 0,18 atau 18%:
Sekarang sayangnya, saya tidak terlalu terbiasa dengan R jadi tidak bisa membantu Anda dengan program yang tepat. Tetapi tentunya jumlah orang yang termasuk dalam setiap kelompok cukup mudah untuk dihitung:
Untuk 10.000 set sampel Anda, Anda perlu:
Yang seharusnya membuat menghasilkan populasi yang cocok cukup sepele.
sumber