Bagaimana cara menghitung dengan probabilitas kecil dan sampel besar?

8

Apakah mungkin untuk menghitung atau memperkirakan probabilitas sesuatu yang sangat tidak mungkin terjadi sekali dalam sampel besar, yaitu, dalam situasi di mana probabilitas lebih kecil dari kesalahan mesin?

Misalnya, saya mencoba menghitung perkiraan seseorang yang berbagi genom saya. Tampaknya suatu genom individu dapat dikompresi tanpa kehilangan hingga sekitar 4MB (2 ^ 25 bit). Jadi peluang salah satu dari 7 miliar manusia di planet ini berbagi genom saya adalah tentang:

(112225)(7×109).

Atau menggunakan metode masalah Ulang Tahun , kemungkinan ada setidaknya dua orang dengan genom identik (mari kita abaikan kembar dan sebagainya) adalah sesuatu seperti:

(7×109)!(22257×109)(2225)(7×109)

Masalahnya di sini adalah jumlahnya sangat kecil atau sangat besar sehingga tidak mungkin untuk menebak kira-kira di mana mereka akan berbohong. Jadi, apakah ada cara untuk mendekati ini atau perhitungan serupa?

Saya menyadari bahwa dalam beberapa kasus asumsi di balik masalah mungkin keluar dengan berbagai urutan besarnya, tetapi bahkan dapat memperkirakan "lebih mungkin daripada tidak" akan menarik.

tidak ada apa-apa101
sumber
2
Logaritma sesuai dalam keadaan seperti itu dan, jika tidak cukup, perkiraan Stirling membuat Anda cukup dekat dengan nilai aktual untuk mengevaluasi besarnya kuantitas.
Xi'an

Jawaban:

8

Dalam fisika, masalah Fermi adalah latihan yang meminta Anda untuk memperkirakan urutan besarnya. Anda dapat melakukan hal yang sama untuk probabilitas. Dengan latihan, intuisi Anda akan meningkat.

Sebagai komentar Xi'an, Anda dapat menggunakan logaritma. Mungkin Anda tidak dapat melihat secara sekilas, tetapi Anda dapat melihat bahwa (atau ), yang menyiratkannya. 222510102251010log21033

Alih-alih menggunakan rumus rumit untuk menghitung nilai tepat yang tidak Anda butuhkan, gunakan taksiran yang mudah dihitung. Misalnya, kemungkinan ada setidaknya satu orang dengan genom Anda (mengabaikan kembar) paling banyak adalah jumlah orang yang diharapkan dengan genom yang sama, produk sederhana yang harus Anda perkirakan sangat kecil. Demikian pula, probabilitas bahwa beberapa pasangan memiliki genom yang sama paling banyak adalah jumlah pasangan yang diharapkan dengan genom yang sama, sekitar12225(7×109)

12(7×109)22225

Omong-omong, saya tidak menerima model probabilitas untuk genom ini. Saya hanya menggunakan model Anda sebagai contoh. Model ini akan memprediksi bahwa kesamaan genetik yang biasanya ditemukan antara saudara kandung secara astronomis tidak mungkin.

Douglas Zare
sumber
Ya, saya tahu modelnya salah. Tapi saudara non-twin hanya mungkin untuk pangsa sekitar setengah dari gen mereka (selain dari yang umum untuk semua manusia), jadi saya tidak benar-benar yakin apa yang Anda maksud dengan kesamaan genetik antara saudara kandung ..
naught101
Saya tidak yakin apa yang Anda maksud dengan "sekitar setengah" karena genom seharusnya dikompresi. Ada tempat di mana ada pilihan, dan tempat di mana ada lebih dari . Bagaimanapun, tempat-tempat di mana mereka tidak memiliki salinan kromosom orang tua yang sama mungkin sama pula secara kebetulan, begitu banyak lebih dari setengah gen mereka harus sama, dan jika Anda berpura-pura bahwa setiap genom adalah acak, Anda akan memperkirakan bahwa kemungkinan ini sangat rendah. Selain itu, anggaplah tidak ada crossover. Maka saudara kandung hanya perlu memenangkan koin membalik untuk memiliki genom yang sama, bukan . 2246225
Douglas Zare
Hal-hal yang menarik, tetapi ini semua agak singgung pertanyaan, di mana model saya yang terlalu sederhana hanyalah contoh dasar. Jika Anda ingin melanjutkan diskusi genetika, kita bisa melakukannya di ruang obrolan ..
non't101
1
Ini semua bahan dasar. Saya hanya tidak ingin menunjukkan perhitungan dalam model ini tanpa menunjukkan bahwa model itu buruk.
Douglas Zare
3

Saya pikir ini merupakan masalah estimasi ekor ekstrem dari distribusi probabilitas tanpa ukuran sampel yang sangat besar yang diperlukan untuk mendapatkan beberapa atau hanya sejumlah kecil nilai yang diamati pada nilai-nilai ekstrem tersebut. Satu-satunya cara untuk melakukan ini adalah dengan mengasumsikan model parametrik yang "otomatis" mengasumsikan bentuk untuk ekor distribusi. Tetapi jika Anda memiliki justifikasi untuk model probabilitas maka Anda bisa mendapatkan estimasi yang Anda cari dengan mencocokkan kepadatan dari keluarga parametrik dan menggunakannya untuk berintegrasi ke area tail untuk memperkirakan probabilitas kecil itu. Jika asumsi parametrik salah, estimasi bisa jadi jauh (berdasarkan urutan besarnya).

Michael R. Chernick
sumber
Bagus, saya tidak memikirkannya seperti itu. Saya tidak tahu model seperti apa yang akan saya gunakan untuk masalah seperti ini.
naught101