Berikut ini contohnya:
- Saya memiliki populasi 10.000 item. Setiap item memiliki id unik.
- Saya secara acak memilih 100 item dan mencatat id
- Saya memasukkan 100 item ke dalam populasi
- Saya secara acak mengambil 100 item lagi, mencatat id dan ganti.
- Secara total, saya ulangi sampling acak ini sebanyak 5 kali
Berapa probabilitas bahwa jumlah item muncul di semua 5 sampel acak?
Saya tidak terlalu berpengalaman dalam statistik. Apakah ini benar untuk ?
- Untuk setiap pengambilan sampel, jumlah kemungkinan kombinasi 100 item dari 10.000 adalah
- Dari semua kemungkinan kombinasi 100 item, kombinasi mengandung 10 item spesifik
- Peluang memiliki 10 item spesifik adalah
- Probabilitas yang dihitung dengan kekuatan 5 akan mewakili 5 sampel independen.
Jadi intinya kita hanya menghitung 5 probabilitas hipergeometrik independen dan kemudian mengalikannya bersama? Saya merasa seperti kehilangan langkah di suatu tempat.
probability
hypergeometric
dasmon
sumber
sumber
Jawaban:
Hitung peluang secara rekursif.
Misalkan menjadi probabilitas bahwa nilai x yang tepat , 0 ≤ x ≤ k , dipilih di semua s ≥ 1 penarikan k item independen (tanpa penggantian) dari populasi n ≥ k > 0 anggota. (Mari kita pertahankan n dan k tetap selama analisis sehingga mereka tidak harus disebutkan secara eksplisit.)hals( x ) x 0 ≤ x ≤ k s ≥ 1 k n ≥ k > 0 n k
Misalkan adalah probabilitas bahwa jika nilai-nilai y yang tepat dipilih pada s - 1 draw pertama, maka x ≤ y dari mereka dipilih pada draw terakhir. Lalu karena ada ( yhals( x ∣ y) y s - 1 x ≤ y himpunan bagian darixelemen darielemeny, dan ( n-y( yx) x y himpunan bagian dari elemenk-x yangtersisadipilih secara terpisah darianggota populasin-ylainnya,( n-yk - x) k - x n - y
Hukum probabilitas total menegaskan
Untuk , ini merupakan kepastian bahwa x = k : ini adalah distribusi awal.s = 1 x = k
Perhitungan total yang diperlukan untuk mendapatkan distribusi penuh naik melalui pengulangan adalah O ( k 2 s ) . Tidak hanya itu cukup cepat, algoritme juga mudah. Salah satu jebakan yang menunggu programmer tidak waspada adalah bahwa probabilitas ini bisa menjadi perhitungan floating-point yang sangat kecil dan underflow. Implementasi berikut menghindari ini dengan menghitung nilai-nilai log ( p s ( x ) ) dalam kolom 1 , 2 , … , s dari sebuah array.s O ( k2s ) catatan( hals( x ) ) 1 , 2 , … , s
R
Jawaban atas pertanyaan tersebut diperoleh dengan membiarkan n = 10000 = 10 4 , dan k = 100 = 10 2 .s = 5 , n = 10.000 = 104 k = 100 = 102 Outputnya adalah array , tetapi sebagian besar jumlahnya sangat kecil sehingga kita dapat fokus pada x yang sangat kecil . Berikut adalah empat baris pertama yang sesuai dengan x = 0 , 1 , 2 , 3 :101 × 5 x x = 0 , 1 , 2 , 3
Outputnya adalah
Nilai label baris sedangkan nilai s label kolom. Kolom 5 menunjukkan kemungkinan bahwa satu elemen muncul di semua lima sampel adalah sangat kecil (sekitar satu dalam sejuta) dan pada dasarnya tidak ada kemungkinan bahwa dua atau lebih elemen muncul di kelima sampel.x s
Jika Anda ingin melihat seberapa kecil peluang ini, lihat logaritma mereka. Basis 10 nyaman dan kami tidak membutuhkan banyak digit:
Output memberitahu kita berapa banyak nol setelah titik desimal:
Angka di baris atas adalah nilai . Misalnya, peluang tepat tiga nilai muncul di semua lima sampel ditemukan oleh komputasi , memberikan 0,000x 0,0000000000000000001434419 ... 18 967.0 967.26 (yang menghitung kemungkinan bahwa sampel pertama muncul kembali dalam empat sampel berikutnya) sama dengan10-967,26.( 10000100)- 4 10- 967.26.
exp(u[4])
dan memang ini memiliki 18 angka nol sebelum angka signifikan pertama. Sebagai tanda centang, nilai terakhir 967.0 adalah versi bulat dari 967.26 . ( 10000sumber
Saya hanya mengalami masalah yang sama dan, meskipun saya juga tidak tahu apakah ini solusi yang tepat, mendekatinya seperti ini:
Anda tertarik terjadinya item dalam 5 sampel á 100 item dari 10 , 000 item yang total. Anda bisa memikirkan sebuah guci dengan X bola putih dan 10 , 000 - X bola hitam. 100 bola dikeluarkan dan p h adalah probabilitas bahwa Anda memiliki semua bola X putih di set Anda. Jika Anda melakukan ini 5 kali (secara independen), saya akan melipatgandakannya: p = p h 5 .X 100 10 , 000 X 10 , 000 - X 100 halh X 5 p = ph5
sumber
sumber