Menghitung perkiraan populasi filter mekar

12

Diberikan filter mekar ukuran N-bit dan fungsi hash K, di mana M-bit (di mana M <= N) dari filter diatur.

Apakah mungkin untuk memperkirakan jumlah elemen yang dimasukkan ke filter bloom?

Contoh sederhana

Saya telah merenungkan contoh berikut, dengan asumsi BF 100-bit dan 5 fungsi hash di mana 10-bit diatur ...

Skenario kasus terbaik: Dengan asumsi fungsi hash benar-benar sempurna dan secara unik memetakan sedikit untuk beberapa nilai X, kemudian diberikan 10-bit yang telah ditetapkan kita dapat mengatakan bahwa hanya ada 2 elemen yang dimasukkan ke dalam BF

Skenario kasus terburuk: Dengan asumsi fungsi hash buruk dan konsisten memetakan ke bit yang sama (namun unik satu sama lain), maka kita dapat mengatakan 10 elemen telah dimasukkan ke dalam BF

Kisaran tampaknya [2,10] di mana sekitar dalam kisaran ini mungkin ditentukan oleh probabilitas positif-palsu dari filter - Saya terjebak pada titik ini.

ds.data-structures pr.probability Tander Kulip
sumber

4

Mengapa tidak menyimpan penghitung jumlah elemen yang dimasukkan? Hanya membutuhkan bit , jika Anda memasukkan elemen.

O (\log n)

$O(\log n)$

n

$n$

Joe

@ Jo, meskipun itu ide yang bagus, itu memang merusak pertanyaan yang sangat menarik.

dan_waterworth

Hanya mencatat bahwa dengan duplikat, metode Joe akan memiliki beberapa kesalahan kecil karena kita tidak selalu bisa memastikan kapan menambahkan elemen apakah sudah ada (dan karenanya kita harus menambah hitungan atau tidak).

usul

5

Iya. Dari Wikipedia :

Jika Anda telah memasukkan elemen ke dalam filter ukuran menggunakan fungsi hash , probabilitas bahwa bit tertentu masih 0 adalah $i$ $n$ $k$

z = {(1 - \frac{1}{n})}^{k i}

$z = \left(1 - \frac{1}{n}\right)^{ki}$

Anda dapat mengukur probabilitas ini sebagai proporsi 0 bit dalam filter Anda. Memecahkan untuk berikan $i$

i = \frac{\ln (z)}{k \ln (1 - \frac{1}{n})}

$i = \frac{\ln(z)}{k\ln\left(1 - \frac{1}{n}\right)}$

Saya telah menggunakan ini dalam praktiknya, dan selama filter Anda tidak melebihi kapasitasnya, kesalahan umumnya kurang dari 0,1% untuk filter hingga jutaan bit. Ketika filter melebihi kapasitasnya, kesalahan tentu saja naik.

Jay Hacker
sumber

3

Jika Anda berasumsi bahwa untuk setiap fungsi hash untuk setiap objek, bit diatur secara seragam secara acak, dan Anda memiliki jumlah jumlah bit yang telah ditetapkan, Anda harus dapat mengikat probabilitas bahwa jumlah objek yang dimasukkan adalah dalam kisaran tertentu, mungkin menggunakan formulasi bola dan tempat sampah. Setiap bit adalah sebuah nampan, dan itu diatur jika memiliki setidaknya 1 bola di dalamnya, setiap objek yang dimasukkan melempar bola , di mana adalah jumlah fungsi hash, dan adalah jumlah bola yang dilemparkan setelah objek dimasukkan . Mengingat bahwa bins memiliki setidaknya 1 bola di dalamnya, berapakah probabilitas bahwa setidaknya bola dilemparkan? Saya pikir di sini Anda dapat menggunakan fakta bahwa: $k$ $k$ $nk$ $n$ $b$ $t$ Tetapi masalah dengan rumusan itu adalah bahwa saya tidak melihat cara langsung untuk menghitung atau , tetapi menemukan nilai yang memaksimalkan probabilitas itu seharusnya tidak terlalu sulit.

P (t balls | b bins) = P (b bins | t balls) \cdot P (t) / P (b)

$P( t \mbox{ balls} | b \mbox{ bins} ) = P(b \mbox{ bins}| t \mbox{ balls}) \cdot P(t)/P(b)$

P (t)

$P(t)$

P (b)

$P(b)$

t

$t$

Joe
sumber

2

Pertanyaan yang menarik, mari kita lihat beberapa kasus tertentu.

$k$ $n_{on}$ $n_{total}$ $m$ $P(k, n_{on}, n_{total}, m)$

$km \lt n_{on}$ $P(k, n_{on}, n_{total}, m)$ $0$

$n_{on} = 1$ $km$ $km - 1$

$P(k, 1, n_{total}, m) = (1/n_{total})^{(km-1)}$

$n_{on} = 2$ $km$ $2$ $1$ $n_{total}(n_{total} - 1)$ $2$ $(2/n_{total})^{km}$ $2$

$n_{total}(n_{total} - 1)(2/n_{total})^{km}$

$1$ $2$

$P(k, 2, n_{total}, m) = n_{total}(n_{total} - 1)(2/n_{total})^{km} - (1/n_{total})^{(km-1)}$

Saya pikir kita bisa menggeneralisasi ini sekarang.

$P(k, n_{on}, n_{total}, m) = {n_{total} \choose n_{on}}(n_{on}/n_{total})^{km} - \sum_{i=1}^{i<n_{on}} P(k, i, n_{total}, m)$

$m$ $O(n^2)$

dan_waterworth
sumber

(\binom{n_{t o t a l}}{n_{o n}}) n_{o n}^{k m} - (\binom{n_{t o t a l}}{n_{o n} - 1}) (n_{o n} - 1)^{k m}

${n_{total} \choose n_{on}}n_{on}^{km}- {n_{total} \choose n_{on}-1}(n_{on}-1)^{km}$ n choose k

@ Jules, bagus, saya yakin sesuatu seperti itu akan terjadi, tetapi tidak punya waktu untuk mencari tahu.

dan_waterworth

P (n_{o n} = x) = P (n_{o n} \leq x) - P (n_{o n} < x) = P (n_{o n} \leq x) - P (n_{o n} \leq x - 1)

$P(n_{on} = x) = P(n_{on} \leq x) - P(n_{on} < x) = P(n_{on} \leq x) - P(n_{on} \leq x-1)$

(\binom{n_{t o t a l}}{x}) (x / n_{t o t a l})^{k m}

${n_{total} \choose x} (x/n_{total})^{km}$

P (n_{o n} \leq x)

$P(n_{on} \leq x)$

2

Misalkan hash didistribusikan secara seragam.

$i$ $i$ $m$ $i-1$ $m$ $m$ $n$ $i-1$ $m-1$ $n-(m-1)$

$P(m,i) = P(m,i-1)(m/n) + P(m-1,i-1)(n-(m-1))/n$

Menulis ulang:

$P(m,i) = \frac{1}{n}(mP(m,i-1) + (n-m+1)P(m-1,i-1))$

$P(0,0) = 1$ $P(m,0) = 0$ $m \neq 0$ $P(0,i) = 0$ $i \neq 0$ $O(mi)$ $i$ $P(m,i)$ memberi Anda perkiraan kemungkinan maksimum.

$i$ $k$ $i/k$

$\frac{1}{n}$ $P(m,i)$ $O(nm)$ $i$ $O(jm)$ $j$ $P$ $O(m \log n)$

Jules
sumber

2

Ide kuncinya adalah memperkirakan perkiraan jumlah bit nol.

$(1-\frac{1}{N})^{Kt} \approx e^{-\frac{Kt}{N}}$

Maka harapan angka nol bit harus:

$N e^{-\frac{Kt}{N}}$ $N - M$

$t = - \frac{N}{K} ln(1-\frac{M}{N})$

Yanghong Zhong
sumber

1

Probabilitas bahwa bit tertentu adalah 1 setelah n penyisipan adalah: P = 1 - (1 - 1 / m) ^ (kn)

Biarkan X_i menjadi variabel acak diskrit yaitu 1 jika bit pada posisi ke-1 adalah 1 dan 0 sebaliknya. Biarkan X = X_1 + X_2 + .... + X_m. Kemudian, E [X] = m * P.

Jika jumlah total set bit adalah S, maka: E [X] = S yang menyiratkan m * P = S. Ini bisa diselesaikan untuk n.

Nikhil
sumber

Menghitung perkiraan populasi filter mekar

Jawaban: