Bagaimana cara menghitung dengan probabilitas kecil dan sampel besar?

Apakah mungkin untuk menghitung atau memperkirakan probabilitas sesuatu yang sangat tidak mungkin terjadi sekali dalam sampel besar, yaitu, dalam situasi di mana probabilitas lebih kecil dari kesalahan mesin?

Misalnya, saya mencoba menghitung perkiraan seseorang yang berbagi genom saya. Tampaknya suatu genom individu dapat dikompresi tanpa kehilangan hingga sekitar 4MB (2 ^ 25 bit). Jadi peluang salah satu dari 7 miliar manusia di planet ini berbagi genom saya adalah tentang:

$(1-\frac{1}{2^{2^{25}}})^{(7\times10^9)}$ .

Atau menggunakan metode masalah Ulang Tahun , kemungkinan ada setidaknya dua orang dengan genom identik (mari kita abaikan kembar dan sebagainya) adalah sesuatu seperti:

$\frac{(7\times10^9)!\cdot{{2^{2^{25}}} \choose 7\times10^9}}{({2^{2^{25}})}^{(7\times10^9)}}$

Masalahnya di sini adalah jumlahnya sangat kecil atau sangat besar sehingga tidak mungkin untuk menebak kira-kira di mana mereka akan berbohong. Jadi, apakah ada cara untuk mendekati ini atau perhitungan serupa?

Saya menyadari bahwa dalam beberapa kasus asumsi di balik masalah mungkin keluar dengan berbagai urutan besarnya, tetapi bahkan dapat memperkirakan "lebih mungkin daripada tidak" akan menarik.

probability estimation tidak ada apa-apa101
sumber

Logaritma sesuai dalam keadaan seperti itu dan, jika tidak cukup, perkiraan Stirling membuat Anda cukup dekat dengan nilai aktual untuk mengevaluasi besarnya kuantitas.

Xi'an

Jawaban:

Dalam fisika, masalah Fermi adalah latihan yang meminta Anda untuk memperkirakan urutan besarnya. Anda dapat melakukan hal yang sama untuk probabilitas. Dengan latihan, intuisi Anda akan meningkat.

Sebagai komentar Xi'an, Anda dapat menggunakan logaritma. Mungkin Anda tidak dapat melihat secara sekilas, tetapi Anda dapat melihat bahwa (atau ), yang menyiratkannya. $2^{2^{25}} \gg 10^{10}$ $2^{25} \gg 10$ $10 \log_2 10 \approx 33$

Alih-alih menggunakan rumus rumit untuk menghitung nilai tepat yang tidak Anda butuhkan, gunakan taksiran yang mudah dihitung. Misalnya, kemungkinan ada setidaknya satu orang dengan genom Anda (mengabaikan kembar) paling banyak adalah jumlah orang yang diharapkan dengan genom yang sama, produk sederhana yang harus Anda perkirakan sangat kecil. Demikian pula, probabilitas bahwa beberapa pasangan memiliki genom yang sama paling banyak adalah jumlah pasangan yang diharapkan dengan genom yang sama, sekitar $\frac {1}{2^{2^{25}}} (7 \times 10^9)$

\frac{\frac{1}{2} (7 \times 10^{9})^{2}}{2^{2^{25}}}

$\frac{\frac 12 (7 \times 10^9)^2}{2^{2^{25}}}$

Omong-omong, saya tidak menerima model probabilitas untuk genom ini. Saya hanya menggunakan model Anda sebagai contoh. Model ini akan memprediksi bahwa kesamaan genetik yang biasanya ditemukan antara saudara kandung secara astronomis tidak mungkin.

Douglas Zare
sumber

Ya, saya tahu modelnya salah. Tapi saudara non-twin hanya mungkin untuk pangsa sekitar setengah dari gen mereka (selain dari yang umum untuk semua manusia), jadi saya tidak benar-benar yakin apa yang Anda maksud dengan kesamaan genetik antara saudara kandung ..

naught101

Saya tidak yakin apa yang Anda maksud dengan "sekitar setengah" karena genom seharusnya dikompresi. Ada tempat di mana ada pilihan, dan tempat di mana ada lebih dari . Bagaimanapun, tempat-tempat di mana mereka tidak memiliki salinan kromosom orang tua yang sama mungkin sama pula secara kebetulan, begitu banyak lebih dari setengah gen mereka harus sama, dan jika Anda berpura-pura bahwa setiap genom adalah acak, Anda akan memperkirakan bahwa kemungkinan ini sangat rendah. Selain itu, anggaplah tidak ada crossover. Maka saudara kandung hanya perlu memenangkan koin membalik untuk memiliki genom yang sama, bukan .

2

$2$

2

$2$

46

$46$

2^{25}

$2^{25}$

Douglas Zare

Hal-hal yang menarik, tetapi ini semua agak singgung pertanyaan, di mana model saya yang terlalu sederhana hanyalah contoh dasar. Jika Anda ingin melanjutkan diskusi genetika, kita bisa melakukannya di ruang obrolan ..

non't101

Ini semua bahan dasar. Saya hanya tidak ingin menunjukkan perhitungan dalam model ini tanpa menunjukkan bahwa model itu buruk.

Douglas Zare

Saya pikir ini merupakan masalah estimasi ekor ekstrem dari distribusi probabilitas tanpa ukuran sampel yang sangat besar yang diperlukan untuk mendapatkan beberapa atau hanya sejumlah kecil nilai yang diamati pada nilai-nilai ekstrem tersebut. Satu-satunya cara untuk melakukan ini adalah dengan mengasumsikan model parametrik yang "otomatis" mengasumsikan bentuk untuk ekor distribusi. Tetapi jika Anda memiliki justifikasi untuk model probabilitas maka Anda bisa mendapatkan estimasi yang Anda cari dengan mencocokkan kepadatan dari keluarga parametrik dan menggunakannya untuk berintegrasi ke area tail untuk memperkirakan probabilitas kecil itu. Jika asumsi parametrik salah, estimasi bisa jadi jauh (berdasarkan urutan besarnya).

Michael R. Chernick
sumber

Bagus, saya tidak memikirkannya seperti itu. Saya tidak tahu model seperti apa yang akan saya gunakan untuk masalah seperti ini.

naught101