Apakah mungkin untuk menghitung atau memperkirakan probabilitas sesuatu yang sangat tidak mungkin terjadi sekali dalam sampel besar, yaitu, dalam situasi di mana probabilitas lebih kecil dari kesalahan mesin?
Misalnya, saya mencoba menghitung perkiraan seseorang yang berbagi genom saya. Tampaknya suatu genom individu dapat dikompresi tanpa kehilangan hingga sekitar 4MB (2 ^ 25 bit). Jadi peluang salah satu dari 7 miliar manusia di planet ini berbagi genom saya adalah tentang:
.
Atau menggunakan metode masalah Ulang Tahun , kemungkinan ada setidaknya dua orang dengan genom identik (mari kita abaikan kembar dan sebagainya) adalah sesuatu seperti:
Masalahnya di sini adalah jumlahnya sangat kecil atau sangat besar sehingga tidak mungkin untuk menebak kira-kira di mana mereka akan berbohong. Jadi, apakah ada cara untuk mendekati ini atau perhitungan serupa?
Saya menyadari bahwa dalam beberapa kasus asumsi di balik masalah mungkin keluar dengan berbagai urutan besarnya, tetapi bahkan dapat memperkirakan "lebih mungkin daripada tidak" akan menarik.
sumber
Jawaban:
Dalam fisika, masalah Fermi adalah latihan yang meminta Anda untuk memperkirakan urutan besarnya. Anda dapat melakukan hal yang sama untuk probabilitas. Dengan latihan, intuisi Anda akan meningkat.
Sebagai komentar Xi'an, Anda dapat menggunakan logaritma. Mungkin Anda tidak dapat melihat secara sekilas, tetapi Anda dapat melihat bahwa (atau ), yang menyiratkannya.2225≫1010 225≫10 10log210≈33
Alih-alih menggunakan rumus rumit untuk menghitung nilai tepat yang tidak Anda butuhkan, gunakan taksiran yang mudah dihitung. Misalnya, kemungkinan ada setidaknya satu orang dengan genom Anda (mengabaikan kembar) paling banyak adalah jumlah orang yang diharapkan dengan genom yang sama, produk sederhana yang harus Anda perkirakan sangat kecil. Demikian pula, probabilitas bahwa beberapa pasangan memiliki genom yang sama paling banyak adalah jumlah pasangan yang diharapkan dengan genom yang sama, sekitar12225(7×109)
Omong-omong, saya tidak menerima model probabilitas untuk genom ini. Saya hanya menggunakan model Anda sebagai contoh. Model ini akan memprediksi bahwa kesamaan genetik yang biasanya ditemukan antara saudara kandung secara astronomis tidak mungkin.
sumber
Saya pikir ini merupakan masalah estimasi ekor ekstrem dari distribusi probabilitas tanpa ukuran sampel yang sangat besar yang diperlukan untuk mendapatkan beberapa atau hanya sejumlah kecil nilai yang diamati pada nilai-nilai ekstrem tersebut. Satu-satunya cara untuk melakukan ini adalah dengan mengasumsikan model parametrik yang "otomatis" mengasumsikan bentuk untuk ekor distribusi. Tetapi jika Anda memiliki justifikasi untuk model probabilitas maka Anda bisa mendapatkan estimasi yang Anda cari dengan mencocokkan kepadatan dari keluarga parametrik dan menggunakannya untuk berintegrasi ke area tail untuk memperkirakan probabilitas kecil itu. Jika asumsi parametrik salah, estimasi bisa jadi jauh (berdasarkan urutan besarnya).
sumber