Bisakah kita memperkirakan ukuran subset X dari himpunan A, dengan mengambil sampel secara acak himpunan bagian dari A?

8

Mari menjadi terbatas himpunan dan misalkan kita ingin menghitung ukuran beberapa bagian .SEBUAHX

Motivasi : Jika kita dapat menghasilkan elemen dari secara seragam secara acak, maka kita dapat memperkirakan ukuran dengan pengambilan sampel acak. Yaitu, kita mengambil sampel acak dari , jika di antaranya adalah , maka . Sayangnya, untuk apa yang saya lakukan, biasanyamasif dan(Sementara masif) cukup kecil sehubungan dengan. Jadi jika saya mencoba melakukan estimasi di atas, saya cenderung mendapatkan , yang, meskipun tidak sia-sia, tidak terlalu memuaskan.xSEBUAHSEBUAHnSEBUAHmX|X|/|SEBUAH|m/n|SEBUAH||X||SEBUAH|m=0

Jadi, saya punya ide bahwa saya berharap akan mempercepat proses ini. Alih-alih melemparkan anak panah ke papan panah besar, mengapa saya tidak melempar bola? Artinya, bukan sampel elemen , kami subset sampel . Tentunya saya harus dapat menyimpulkan sesuatu tentang kepadatan dalam dari percobaan ini.xSEBUAHSEBUAHXSEBUAH

Misalkan dilengkapi dengan metrik (saya ingat jarak Hamming). Untuk setiap biarkan menjadi bola jari-jari tertutup dalam berpusat di . Karena kita dapat sampel elemen secara seragam secara acak, kita dapat mengambil sampel -balls secara seragam secara acak.SEBUAHd(x,y)ySEBUAHY(y)={xSEBUAH:d(x,y)k}kSEBUAHtxSEBUAHkYk(t)

Misalkan (a) setiap milik persis jumlah yang sama dari -balls dan (b) setiap bola memiliki ukuran yang sama .xSEBUAHkkr

Sekarang anggaplah saya menghasilkan -balls secara seragam secara acak dan anggap. Sepertinya kita bisa memperkirakandengan cara yang sama, yaitu .kY1,Y2,...,Ynm=saya=1n|YsayaX||SEBUAH||X|/|SEBUAH|mrn

Jadi pertanyaan saya adalah:

Apakah saya benar karena kami dapat memperkirakancara ini? Jika demikian, saya ragu saya yang pertama memikirkan hal ini, jadi apakah ada nama untuk metode ini?|X|

Saya benar-benar menguji ini pada beberapa set, dan tampaknya cocok dengan apa yang saya klaim.

Apakah ada kelemahan dari pendekatan ini? (mis. apakah kurang akurat? apakah saya perlu lebih banyak sampel?)

Douglas S. Stones
sumber
Saya pikir Anda membuat sedikit kesalahan pada paragraf kedua: . Kalau tidak, apa yang Anda lakukan pada dasarnya adalah menciptakan kembali integrasi Monte Carlo, well, versi subset yang belum saya temui, tetapi saya tidak akan terkejut jika sudah dilakukan. |X|/|SEBUAH|m/n
Raskolnikov
Terima kasih, ya itu kesalahan (pada kenyataannya, ada yang serupa nanti juga).
Douglas S. Stones

Jawaban:

3

OK, coba baca halaman wikipedia untuk integrasi Monte Carlo . Anda akan melihat mereka menyebutkan versi bertingkat. Stratifikasi adalah istilah teknis dalam statistik untuk apa yang Anda coba: pengelompokan dalam subset (subsamples). Saya kira referensi dapat membantu Anda lebih jauh.

Raskolnikov
sumber
3

Untuk setiap subset Y dari SEBUAHbiarkan π(Y)menjadi probabilitas Anda akan memilihnya dalam sampel Anda. Anda telah menggambarkan variabel acak

f(Y)=|YX|.

The Total darif dalam populasi himpunan bagian dari SEBUAH adalah

τ(X)=YSEBUAH|YX|=2|SEBUAH|-1|X|.

Dari sampel (dengan penggantian) himpunan bagian dari SEBUAHkatakan Y1,Y2,...,Ym, Estimator Hansen-Hurwitz memperoleh estimasi tidak bias dari total ini sebagai

f^π=saya=1m|YsayaX|π(Ysaya).

Membagi ini dengan 2|SEBUAH|-1|SEBUAH| Oleh karena itu perkiraan |X|/|SEBUAH|. Varian darif^π adalah

Var(f^π)=1mYSEBUAHπ(Y)(|YX|π(Y)-2|SEBUAH|-1|X|)2.

Membagi ini dengan 22(|SEBUAH|-1)|SEBUAH|2 menghasilkan varians pengambilan sampel |X|/|SEBUAH|. DiberikanSEBUAH, X, dan prosedur pengambilan sampel yang diusulkan (yang menentukan π(Y) untuk semua YSEBUAH), pilih nilai m (ukuran sampel) yang varians estimasinya menjadi kecil.

whuber
sumber
hebat, saya kira ini jawabannya! Saya tidak tahu Hansen-Hurwitz ...
robin girard
2

Saya menganggap ukuran Anda terbatas. WLOG itu bisa menjadi probabilitas.

Prosedur pertama yang Anda sebutkan adalah estimasi probabilitas empiris lama yang baik :

P^(YX)=|{xsayaX}|/n

(ada estimasi montecarlo tentang inetgral juga merupakan interpretasi yang baik). Dalam dimensi tinggi sejak itu tidak berfungsi{xsayaX}cenderung kosong untuk tipikal A. Seperti yang Anda perhatikan, Anda perlu regularisasi. Seberapa canggih pengaturan yang Anda butuhkan terkait dengan dimensi ruang Anda.

Gagasannya adalah memperbesar X atau bahkan memberi bobot pada xsaya itu bukan di X menurut jarak ke X, inilah yang saya sebut sebagai estimasi probabilitas kernel (dengan analogi dengan estimasi kepadatan kernel ):

P^(YX)=1/(c(k)n)sayaK(d(xsaya,X)/k)

dimana K adalah kernel yang terintegrasi ke 1 (dalam kasus Anda bisa jadi K(x)=1{x1} tetapi kernel gaussian memiliki properti yang baik) dan c(k) konstanta normalisasi yang dipilih dengan baik (yaitu sedemikian P^(YSEBUAH)=1).

robin girard
sumber