Apakah penolakan sampel adalah satu-satunya cara untuk mendapatkan distribusi angka acak yang benar-benar seragam?

Misalkan kita memiliki generator acak yang mengeluarkan angka dalam kisaran $[0..R-1]$ dengan distribusi seragam dan kita perlu menghasilkan angka acak dalam kisaran $[0..N-1]$ dengan distribusi seragam.

Misalkan $N < R$ dan $N$ tidak membagi secara merata $R$ ; untuk mendapatkan distribusi yang benar - benar seragam, kita dapat menggunakan metode sampel penolakan :

jika $k$ adalah yang terbesar bilangan bulat sehingga $k N < R$
pilih angka acak $r$ dalam $[0..R-1]$
jika $r < k N$ maka keluaran , jika tidak teruslah mencoba dengan angka acak lainnya r ', r ", ... sampai kondisinya terpenuhi $r \mod N$

Apakah penolakan sampel adalah satu-satunya cara untuk mendapatkan distribusi diskrit yang benar-benar seragam?

Jika jawabannya ya, mengapa?

Catatan: jika idenya sama: menghasilkan angka acak dalam , misalnya mana adalah nomor acak dalam rentang $N > R$ $r'$ $[0..R^m-1], R^m >= N$ $r' = R(...R(R r_1 + r_2)...)+r_m$ $r_i$ $[0..R-1]$

probability-theory randomness random-number-generator sampling Vor
sumber

Lihat pertanyaan terkait ini di cstheory.SE .

Raphael

Jawaban:

Ya dan tidak, tergantung pada apa yang Anda maksud dengan "satu-satunya cara". Ya, karena tidak ada metode yang dijamin akan berakhir, yang terbaik yang dapat Anda lakukan (untuk nilai generik dan ) adalah algoritma yang berakhir dengan probabilitas 1. Tidak, karena Anda dapat menjadikan "limbah" sekecil mungkin sesukamu. $N$ $R$

Mengapa jaminan pemutusan hubungan kerja tidak mungkin secara umum

Misalkan Anda memiliki mesin komputasi deterministik (mesin Turing atau apa pun mengapung perahu Anda), ditambah sebuah ramalan yang menghasilkan elemen acak dari -element set . Tujuan Anda adalah untuk menghasilkan elemen set elemen- . Output dari mesin Anda hanya bergantung pada urutan nilai yang dikembalikan oleh oracle; itu adalah fungsi dari bahwa urutan berpotensi terbatas . $R$ $[0..R-1]$ $N$ $[0,N-1]$ $f$ $(r_0, r_1, r_2, \ldots)$

Misalkan mesin Anda memanggil oracle paling kali. Mungkin ada jejak yang disebut oracle kurang dari kali; jika demikian, memanggil oracle ekstra kali sehingga selalu dipanggil tepat kali tidak mengubah output. Jadi tanpa kehilangan keumuman, kita menganggap bahwa oracle itu disebut tepat kali. Maka probabilitas hasil adalah jumlah urutan sedemikian sehingga . Karena oracle adalah generator acak yang seragam, masing-masing urutan dapat dilengkapi dan memiliki probabilitas . Oleh karena itu probabilitas setiap hasil adalah dari bentuk $m$ $m$ $m$ $m$ $x$ $(r_0, \ldots, r_{m-1})$ $f(r_0, \ldots, r_{m-1}) = x$ $1/R^m$ di mana adalah bilangan bulat antara dan . $A/R^m$ $A$ $0$ $R^m$

Jika membagi untuk beberapa , maka Anda dapat menghasilkan distribusi seragam atas elemen dengan memanggil acak kali (ini dibiarkan sebagai latihan bagi pembaca). Jika tidak, ini tidak mungkin: tidak ada cara untuk mendapatkan hasil dengan probabilitas . Perhatikan bahwa kondisinya setara dengan mengatakan bahwa semua faktor utama juga merupakan faktor (ini lebih permisif daripada apa yang Anda tulis dalam pertanyaan Anda; misalnya Anda dapat memilih elemen acak di antara 4 dengan adil 6 sisi. mati, meskipun 4 tidak membagi 6). $N$ $R^m$ $m$ $N$ $m$ $1/N$ $N$ $R$

Mengurangi limbah

Dalam strategi Anda, ketika , Anda tidak harus segera menggambar ulang. Secara intuitif, ada sedikit entropi yang tersisa di $r \ge k\,N$ yang dapat disimpan dalam campuran. $[k\,N .. R-1]$

Asumsikan sejenak bahwa Anda akan pada kenyataannya terus menghasilkan angka acak di bawah selamanya, dan Anda menghasilkan dari mereka pada waktu dengan membuat menarik. Jika Anda melakukan penolakan langsung pengambilan sampel pada generasi dikelompokkan ini, limbah lebih menarik adalah $N$ $u$ $d$ $d$ $\dfrac{R^d - k\,N^u}{d}$ $R^d \mathbin{\mathrm{mod}} N^u$ $\gcd(R,N)$ $R$ $N$ $d$ $R$ $N$ $\gcd(R,N)$ $N/\gcd(R,N)$

Dalam praktiknya, bahkan dengan angka acak yang relatif tidak efisien (misalnya dalam kriptografi), jarang ada yang layak dilakukan selain sampel penolakan sederhana, kecuali jika kecil. Misalnya, dalam kriptografi, di mana biasanya memiliki kekuatan 2 dan biasanya ratusan atau ribuan bit, pembangkitan bilangan acak yang seragam biasanya dihasilkan dengan sampel penolakan lurus dalam kisaran yang diinginkan. $N$ $R$ $N$

Gilles 'SANGAT berhenti menjadi jahat'
sumber

Bukti pertama cacat: keberadaan

terlalu kuat. Kita dapat memiliki mesin yang mengkonsumsi banyak elemen secara sewenang-wenang, tetapi selalu berakhir. Pada dasarnya, kami ingin mengecualikan satu urutan (yang tidak pernah berakhir) tetapi Anda mengecualikan semua tapi banyak sekali.

m

$m$

Raphael

@ Raphael Saya tidak yakin saya mengerti maksud Anda. Bisakah Anda memberi contoh mesin seperti itu?

Gilles 'SO- berhenti bersikap jahat'

Ah, kekhawatiran saya terlalu umum. Di sini - mengingat tidak adanya input - Anda benar. Jika semua perhitungan berakhir, ada banyak (tidak ada input, jumlah keputusan terbatas per langkah, hingga pohon terbatas), oleh karena itu ada yang terpanjang yang memberi Anda

m

$m$

Raphael

@Raphael Komentar Anda membuat saya berpikir tentang presentasi yang lebih baik untuk pemirsa TCS: jadikan RNG input dari sebuah TM daripada sebuah oracle. Kami berasumsi bahwa TM berakhir (jika tidak algoritma tidak benar). Jika ada

sehingga apapun input, terlihat TM di paling

sel input, kemudian <bla bla dibagi oleh

bla bisa tidak memiliki

equiprobable hasil>. Kalau tidak, untuk semua

, probabilitas membutuhkan setidaknya

draw adalah setidaknya

m

$m$

m

$m$

R^{m}

$R^m$

N

$N$

m

$m$

m

$m$

R^{- m}

$R^{-m}$

Gilles 'SO- stop being evil'

@ Raphael: Lemma König menunjukkan bahwa jika mesin selalu berakhir, maka sebenarnya ada batas atas pada waktu berjalannya. Ini berfungsi selama set output dari RNG terbatas (dan jika tidak, itu sepele).

Yuval Filmus

Teorema pengkodean sumber Shannon menunjukkan bahwa, dalam arti tertentu, Anda memerlukan sampel (rata-rata) dari tipe untuk menghasilkan nomor acak dari tipe . Lebih akurat, Shannon memberikan algoritma (tidak efisien) yang memberikan sampel dari tipe pertama, output $\log N/\log R$ $[0,\ldots,R-1]$ $[0,\ldots,N-1]$ $m$ $m(\log N/\log R - \epsilon)$ sampel dari tipe kedua, dengan probabilitas tinggi. Dia juga menunjukkan bahwa mengeluarkan sampel dengan probabilitas tinggi adalah mustahil. $m(\log N/\log R + \epsilon)$

Teorema Shannon juga bekerja dalam kasus yang lebih umum dari distribusi input miring (dan mungkin juga distribusi keluaran miring). Dalam hal ini, Anda perlu mengganti logaritma dengan entropi. Sementara algoritma yang diberikan oleh teorema didefinisikan secara acak, dalam beberapa kasus dimungkinkan untuk melakukan derandomisasi (dengan mengorbankan kinerja yang agak buruk).

Yuval Filmus
sumber

Sebenarnya, tidak, sampel penolakan jauh dari satu-satunya cara untuk melanjutkan. Sayangnya, mengingat bahwa komputer menyimpan semua informasi sebagai bit, dan dengan demikian hanya dapat memanipulasi bit informasi acak, algoritma apa pun untuk menggambar variabel acak seragam dari rentang akan menjadi tak terbatas, jika pengembangan basis biner dari tidak terbatas. $N$ $N$

Teorema ini adalah hasil klasik oleh Knuth dan Yao (1976), yang mengembangkan kerangka kerja pohon-pohon DDG (pohon penghasil distribusi diskrit).

Metode yang diekspos oleh Gilles adalah hal-hal khas yang telah dilakukan untuk mengurangi limbah yang ditimbulkan oleh penolakan, tetapi tentu saja jika seseorang dapat menghasilkan mengikuti pohon Knuth dan Yao itu jauh, jauh lebih efisien - rata-rata 96% dari bit acak diselamatkan.

Saya telah memberikan informasi lebih lanjut tentang ini di posting CStheory berikut .

Jérémie
sumber