Bisakah kita memperkirakan ukuran subset X dari himpunan A, dengan mengambil sampel secara acak himpunan bagian dari A?

8

Mari menjadi terbatas himpunan dan misalkan kita ingin menghitung ukuran beberapa bagian . $A$ $X$

Motivasi : Jika kita dapat menghasilkan elemen dari secara seragam secara acak, maka kita dapat memperkirakan ukuran dengan pengambilan sampel acak. Yaitu, kita mengambil sampel acak dari , jika di antaranya adalah , maka . Sayangnya, untuk apa yang saya lakukan, biasanyamasif dan(Sementara masif) cukup kecil sehubungan dengan. Jadi jika saya mencoba melakukan estimasi di atas, saya cenderung mendapatkan , yang, meskipun tidak sia-sia, tidak terlalu memuaskan. $x$ $A$ $A$ $n$ $A$ $m$ $X$ $|X|/|A| \approx m/n$ $|A|$ $|X|$ $|A|$ $m=0$

Jadi, saya punya ide bahwa saya berharap akan mempercepat proses ini. Alih-alih melemparkan anak panah ke papan panah besar, mengapa saya tidak melempar bola? Artinya, bukan sampel elemen , kami subset sampel . Tentunya saya harus dapat menyimpulkan sesuatu tentang kepadatan dalam dari percobaan ini. $x \in A$ $A$ $X$ $A$

Misalkan dilengkapi dengan metrik (saya ingat jarak Hamming). Untuk setiap biarkan menjadi bola jari-jari tertutup dalam berpusat di . Karena kita dapat sampel elemen secara seragam secara acak, kita dapat mengambil sampel -balls secara seragam secara acak. $A$ $d(x,y)$ $y \in A$ $Y(y)=\{x \in A:d(x,y) \leq k\}$ $k$ $A$ $t$ $x \in A$ $k$ $Y_k(t)$

Misalkan (a) setiap milik persis jumlah yang sama dari -balls dan (b) setiap bola memiliki ukuran yang sama . $x \in A$ $k$ $k$ $r$

Sekarang anggaplah saya menghasilkan -balls secara seragam secara acak dan anggap. Sepertinya kita bisa memperkirakandengan cara yang sama, yaitu . $k$ $Y_1,Y_2,\ldots,Y_n$ $m=\sum_{i=1}^n |Y_i \cap X|$ $|A|$ $|X|/|A| \approx \frac{m}{rn}$

Jadi pertanyaan saya adalah:

Apakah saya benar karena kami dapat memperkirakancara ini? Jika demikian, saya ragu saya yang pertama memikirkan hal ini, jadi apakah ada nama untuk metode ini? $|X|$

Saya benar-benar menguji ini pada beberapa set, dan tampaknya cocok dengan apa yang saya klaim.

Apakah ada kelemahan dari pendekatan ini? (mis. apakah kurang akurat? apakah saya perlu lebih banyak sampel?)

estimation Douglas S. Stones
sumber

Saya pikir Anda membuat sedikit kesalahan pada paragraf kedua: . Kalau tidak, apa yang Anda lakukan pada dasarnya adalah menciptakan kembali integrasi Monte Carlo, well, versi subset yang belum saya temui, tetapi saya tidak akan terkejut jika sudah dilakukan.

| X | / | A | \approx m / n

$|X|/|A| \approx m/n$

Raskolnikov

Terima kasih, ya itu kesalahan (pada kenyataannya, ada yang serupa nanti juga).

Douglas S. Stones

3

OK, coba baca halaman wikipedia untuk integrasi Monte Carlo . Anda akan melihat mereka menyebutkan versi bertingkat. Stratifikasi adalah istilah teknis dalam statistik untuk apa yang Anda coba: pengelompokan dalam subset (subsamples). Saya kira referensi dapat membantu Anda lebih jauh.

Raskolnikov
sumber

3

Untuk setiap subset $Y$ dari $A$ biarkan $\pi(Y)$ menjadi probabilitas Anda akan memilihnya dalam sampel Anda. Anda telah menggambarkan variabel acak

f (Y) = | Y \cap X | .

$f(Y) = |Y \cap X|.$

The Total dari $f$ dalam populasi himpunan bagian dari $A$ adalah

τ (X) = \sum_{Y \subset SEBUAH} | Y \cap X | = 2^{| SEBUAH | - 1} | X | .

$\tau(X) = \sum_{Y \subset A}|Y \cap X| = 2^{|A|-1}|X|.$

Dari sampel (dengan penggantian) himpunan bagian dari $A$ katakan $Y_1, Y_2, \ldots, Y_m$ , Estimator Hansen-Hurwitz memperoleh estimasi tidak bias dari total ini sebagai

{\hat{f}}_{π} = \sum_{saya = 1}^{m} \frac{| Y_{saya} \cap X |}{π (Y_{saya})} .

$\hat{f}_\pi = \sum_{i=1}^{m} \frac{|Y_i \cap X|}{\pi(Y_i)} .$

Membagi ini dengan $2^{|A|-1}|A|$ Oleh karena itu perkiraan $|X|/|A|$ . Varian dari $\hat{f}_\pi$ adalah

Var ({\hat{f}}_{π}) = \frac{1}{m} \sum_{Y \subset SEBUAH} π (Y) {(\frac{| Y \cap X |}{π (Y)} - 2^{| SEBUAH | - 1} | X |)}^{2} .

$\text{Var}(\hat{f}_\pi) = \frac{1}{m} \sum_{Y \subset A} \pi(Y) \left( \frac{|Y \cap X|}{\pi(Y)} - 2^{|A|-1}|X| \right)^2\text{.}$

Membagi ini dengan $2^{2(|A|-1)}|A|^2$ menghasilkan varians pengambilan sampel $|X|/|A|$ . Diberikan $A$ , $X$ , dan prosedur pengambilan sampel yang diusulkan (yang menentukan $\pi(Y)$ untuk semua $Y \subset A$ ), pilih nilai $m$ (ukuran sampel) yang varians estimasinya menjadi kecil.

whuber
sumber

hebat, saya kira ini jawabannya! Saya tidak tahu Hansen-Hurwitz ...

robin girard

2

Saya menganggap ukuran Anda terbatas. WLOG itu bisa menjadi probabilitas.

Prosedur pertama yang Anda sebutkan adalah estimasi probabilitas empiris lama yang baik :

$\hat{P}(Y\in X)= | \{ x_i \in X\} | /n$

(ada estimasi montecarlo tentang inetgral juga merupakan interpretasi yang baik). Dalam dimensi tinggi sejak itu tidak berfungsi $\{x_i\in X\}$ cenderung kosong untuk tipikal A. Seperti yang Anda perhatikan, Anda perlu regularisasi. Seberapa canggih pengaturan yang Anda butuhkan terkait dengan dimensi ruang Anda.

Gagasannya adalah memperbesar $X$ atau bahkan memberi bobot pada $x_i$ itu bukan di $X$ menurut jarak ke $X$ , inilah yang saya sebut sebagai estimasi probabilitas kernel (dengan analogi dengan estimasi kepadatan kernel ):

$\hat{P}(Y\in X)= 1/(c(k) n)\sum_{i} K(d(x_i,X)/k)$

dimana $K$ adalah kernel yang terintegrasi ke $1$ (dalam kasus Anda bisa jadi $K(x)=1\{x\leq 1\}$ tetapi kernel gaussian memiliki properti yang baik) dan $c(k)$ konstanta normalisasi yang dipilih dengan baik (yaitu sedemikian $\hat{P}(Y\in A)=1$ ).

robin girard
sumber

Bisakah kita memperkirakan ukuran subset X dari himpunan A, dengan mengambil sampel secara acak himpunan bagian dari A?

Jawaban: