Mari menjadi terbatas himpunan dan misalkan kita ingin menghitung ukuran beberapa bagian .
Motivasi : Jika kita dapat menghasilkan elemen dari secara seragam secara acak, maka kita dapat memperkirakan ukuran dengan pengambilan sampel acak. Yaitu, kita mengambil sampel acak dari , jika di antaranya adalah , maka . Sayangnya, untuk apa yang saya lakukan, biasanyamasif dan(Sementara masif) cukup kecil sehubungan dengan. Jadi jika saya mencoba melakukan estimasi di atas, saya cenderung mendapatkan , yang, meskipun tidak sia-sia, tidak terlalu memuaskan.
Jadi, saya punya ide bahwa saya berharap akan mempercepat proses ini. Alih-alih melemparkan anak panah ke papan panah besar, mengapa saya tidak melempar bola? Artinya, bukan sampel elemen , kami subset sampel . Tentunya saya harus dapat menyimpulkan sesuatu tentang kepadatan dalam dari percobaan ini.
Misalkan dilengkapi dengan metrik (saya ingat jarak Hamming). Untuk setiap biarkan menjadi bola jari-jari tertutup dalam berpusat di . Karena kita dapat sampel elemen secara seragam secara acak, kita dapat mengambil sampel -balls secara seragam secara acak.
Misalkan (a) setiap milik persis jumlah yang sama dari -balls dan (b) setiap bola memiliki ukuran yang sama .
Sekarang anggaplah saya menghasilkan -balls secara seragam secara acak dan anggap. Sepertinya kita bisa memperkirakandengan cara yang sama, yaitu .
Jadi pertanyaan saya adalah:
Apakah saya benar karena kami dapat memperkirakancara ini? Jika demikian, saya ragu saya yang pertama memikirkan hal ini, jadi apakah ada nama untuk metode ini?
Saya benar-benar menguji ini pada beberapa set, dan tampaknya cocok dengan apa yang saya klaim.
Apakah ada kelemahan dari pendekatan ini? (mis. apakah kurang akurat? apakah saya perlu lebih banyak sampel?)
sumber
Jawaban:
OK, coba baca halaman wikipedia untuk integrasi Monte Carlo . Anda akan melihat mereka menyebutkan versi bertingkat. Stratifikasi adalah istilah teknis dalam statistik untuk apa yang Anda coba: pengelompokan dalam subset (subsamples). Saya kira referensi dapat membantu Anda lebih jauh.
sumber
Untuk setiap subsetY dari SEBUAH biarkan π( Y) menjadi probabilitas Anda akan memilihnya dalam sampel Anda. Anda telah menggambarkan variabel acak
The Total darif dalam populasi himpunan bagian dari SEBUAH adalah
Dari sampel (dengan penggantian) himpunan bagian dariSEBUAH katakan Y1,Y2, ...,Ym , Estimator Hansen-Hurwitz memperoleh estimasi tidak bias dari total ini sebagai
Membagi ini dengan2| A | -1| A | Oleh karena itu perkiraan | X| / | A | . Varian darif^π adalah
Membagi ini dengan22 ( | A | - 1 )| SEBUAH|2 menghasilkan varians pengambilan sampel | X| / | A | . DiberikanSEBUAH , X , dan prosedur pengambilan sampel yang diusulkan (yang menentukan π( Y) untuk semua Y⊂ A ), pilih nilai m (ukuran sampel) yang varians estimasinya menjadi kecil.
sumber
Saya menganggap ukuran Anda terbatas. WLOG itu bisa menjadi probabilitas.
Prosedur pertama yang Anda sebutkan adalah estimasi probabilitas empiris lama yang baik :
(ada estimasi montecarlo tentang inetgral juga merupakan interpretasi yang baik). Dalam dimensi tinggi sejak itu tidak berfungsi{xsaya∈ X} cenderung kosong untuk tipikal A. Seperti yang Anda perhatikan, Anda perlu regularisasi. Seberapa canggih pengaturan yang Anda butuhkan terkait dengan dimensi ruang Anda.
Gagasannya adalah memperbesarX atau bahkan memberi bobot pada xsaya itu bukan di X menurut jarak ke X , inilah yang saya sebut sebagai estimasi probabilitas kernel (dengan analogi dengan estimasi kepadatan kernel ):
dimanaK adalah kernel yang terintegrasi ke 1 (dalam kasus Anda bisa jadi K( x ) = 1 { x ≤ 1 } tetapi kernel gaussian memiliki properti yang baik) dan c ( k ) konstanta normalisasi yang dipilih dengan baik (yaitu sedemikian P^( Y∈ A ) = 1 ).
sumber