Hasil pada estimasi Monte Carlo dihasilkan oleh sampling penting

13

Saya telah bekerja pada sampel penting cukup dekat selama setahun terakhir dan memiliki beberapa pertanyaan terbuka yang saya harap dapat membantu.

Pengalaman praktis saya dengan skema sampel penting adalah bahwa mereka kadang-kadang dapat menghasilkan estimasi varians rendah dan bias rendah yang fantastis. Namun, lebih sering, mereka cenderung menghasilkan perkiraan kesalahan tinggi yang memiliki varians sampel rendah tetapi bias sangat tinggi.

Saya bertanya-tanya apakah ada yang bisa menjelaskan dengan tepat faktor-faktor apa yang memengaruhi validitas estimasi kepentingan sampel? Secara khusus, saya bertanya-tanya:

1) Apakah estimasi sampling kepentingan dijamin akan menyatu dengan hasil yang benar ketika distribusi biasing memiliki dukungan yang sama dengan distribusi asli? Jika demikian, mengapa hal ini tampaknya membutuhkan waktu lama dalam praktik?

2) Apakah ada hubungan kuantitatif antara kesalahan dalam estimasi yang dihasilkan melalui sampling penting dan "kualitas" distribusi biasing (yaitu seberapa cocok dengan distribusi zero-variance)

3) Sebagian didasarkan pada 1) dan 2) - apakah ada cara untuk mengukur 'berapa banyak' yang harus Anda ketahui tentang distribusi sebelum Anda lebih baik menggunakan desain sampel penting daripada metode Monte Carlo sederhana.

Berk U.
sumber

Jawaban:

8

Importance sampling memiliki validasi yang persis sama dengan pendekatan dasar Monte Carlo. Pada intinya, itu adalah dasar Monte Carlo . Memang, itu hanyalah perubahan ukuran referensi, dari ke h ( x ) f ( x )

h(x)f(x)dx
Jadi konvergensi dijamin oleh hukum angka besar dalam kedua kasus, yaitu apakah Anda mensimulasikan darifatau darig. Selain itu, jika istilah h2(x)f2(x)
h(x)f(x)g(x)g(x)dx
fg terbatas, teorema batas pusat juga berlaku dan kecepatan konvergensi adalahO(1/
h2(x)f2(x)g(x)dx
. Jika "memakan waktu begitu lama dalam praktek", itu karena faktor varians di atas dalam CLT bisa sangat besar. Tapi, dan saya bersikeras, kecepatannya sama dengan Monte Carlo biasa,O(1/O(1/n).O(1/n)

Kualitas distribusi sampel yang penting dengan demikian secara langsung terkait dengan faktor varians di atas, yang masuk ke nol untuk "distribusi varians nol" sebanding dengan .|h(x)|f(x)

Xi'an
sumber
2
Saya curiga, mengingat bahwa OP melaporkan penduga varians kecil yang bias, tetapi tampaknya memiliki varians kecil, bahwa ia mungkin bertanya tentang pengambilan sampel kepentingan yang dinormalisasi sendiri. Lihat kata - kata kasar Radford Neal pada estimator rata-rata Harmonik untuk contoh yang baik, yang mengambil apa yang akan menjadi estimasi pengambilan sampel penting dengan 0 varian, dan mengembalikan omong kosong. Saya tidak yakin bahwa ini tidak pernah terjadi dalam sampling kepentingan reguler, tetapi ini tentu jarang terjadi.
deinst
Bahkan jika ini bukan niat OP, saya akan tertarik pada beberapa petunjuk tentang bagaimana mencari tahu kapan normalisasi diri akan menjadi sangat salah.
deinst
@deinst Saya tidak mengetahui prosedur normalisasi diri dan kesulitannya, jadi terima kasih untuk ini! Bagaimanapun, saya pikir masalahnya mungkin relevan dengan properti skema IS saya, jadi saya ingin mengeksplorasi ide ini lebih banyak lagi jika ada di antara Anda yang memiliki ide.
Berk U.
g(x)Mx1..xMg(x)=h(x)f(x)/h(x)f(x)dxx1..xMg(x)^g(x)^Ny1...yN
Menggunakan estimasi non-parametrik memperkenalkan variabilitas orde yang lebih tinggi daripada variabilitas Monte Carlo, jadi saya tidak akan menyarankannya.
Xi'an
7

fg

δ=h(x)f(x)dx
x1,,xng(x)
δ^=i=1nh(x)f(x)/g(x)i=1nf(x)/g(x).
X/Yω(X)=f(x)/g(X)
Eg(δ^)δ+δVarg(ω(X))Covg(ω(X),h(X)ω(X))n
Varg(δ^)Varg(h(X)ω(X))2δCovg(ω(X),h(X)ω(X))+δ2Varg(ω(X))n.

Jadi, secara intuitif, untuk mendapatkan bias kecil dan varian kecil, Anda inginkan Varg(ω(X)) menjadi kecil dan Covg(ω(X),h(X)ω(X))menjadi positif. Sayangnya perkiraan ini tidak sempurna (dan secara akurat menentukan varians dan kovarian cenderung sesulit memecahkan masalah awal).

Deinst
sumber
Terima kasih untuk ini. Saya hanya sedikit tidak yakin tentang notasi / tidak yakin apakah ada kesalahan ketik. Untuk memperjelas, apa sebenarnya ituX/Y dan Gdalam penjelasan anda?
Berk U.
@ BerkUstun Ibu kota G adalah kesalahan ketik untuk yang kecil yang akan saya segera perbaiki. X / Y hanyalah rasio generik dari variabel acak. IIRC semua ini dijelaskan dalam buku Monte Carlo milik Liu (sesuatu dengan judul ilmiah.)
deinst
@deinst: Poin bagus! Memang, sifat-sifat dari versi yang dinormalisasi-sendiri sangat berbeda dari sifat-sifat dari penduga sampling kepentingan yang tidak bias. Secara teori, seseorang akan memerlukan sampler kepentingan terpisah untuk memperkirakan penyebutnya.
Xi'an