Apa itu sampling penting?

Jawaban:

15

Pengambilan sampel kepentingan adalah suatu bentuk pengambilan sampel dari distribusi yang berbeda dari distribusi bunga sehingga untuk lebih mudah mendapatkan estimasi parameter yang lebih baik dari distribusi bunga. Biasanya ini akan memberikan perkiraan parameter dengan varians yang lebih rendah daripada yang akan diperoleh dengan mengambil sampel langsung dari distribusi asli dengan ukuran sampel yang sama.

Ini diterapkan dalam berbagai konteks. Secara umum, pengambilan sampel dari distribusi yang berbeda memungkinkan lebih banyak sampel untuk diambil dalam porsi distribusi bunga yang ditentukan oleh aplikasi (wilayah penting).

Salah satu contoh mungkin adalah Anda ingin memiliki sampel yang mencakup lebih banyak sampel dari ekor distribusi daripada sampel acak murni dari distribusi bunga akan memberikan.

The artikel wikipedia yang saya lihat tentang hal ini terlalu abstrak. Lebih baik untuk melihat berbagai contoh spesifik. Namun itu termasuk tautan ke aplikasi menarik seperti Bayesian Networks.

Salah satu contoh pengambilan sampel yang penting pada tahun 1940-an dan 1950-an adalah teknik reduksi varians (suatu bentuk Metode Monte Carlo). Lihat misalnya buku Metode Monte Carlo oleh Hammersley dan Handscomb yang diterbitkan sebagai Methuen Monograph / Chapman and Hall pada tahun 1964 dan dicetak ulang pada tahun 1966 dan kemudian oleh penerbit lain. Bagian 5.4 buku ini mencakup Pengambilan Sampel Penting.

Michael R. Chernick
sumber
2
Untuk menambah ini: Dalam RL Anda umumnya menerapkan sampling penting untuk kebijakan: misalnya tindakan pengambilan sampel dari kebijakan eksplorasi alih-alih kebijakan aktual yang benar-benar ingin Anda sampel
DaVinci
3
Jawaban ini dimulai dengan baik dengan menjelaskan apa pentingnya pengambilan sampel tidak, tapi aku kecewa untuk menemukan itu tidak pernah benar-benar menjawab pertanyaan tentang apa pentingnya pengambilan sampel adalah : bagaimana cara kerjanya?
whuber
@whuber Tujuan saya di sini adalah untuk menjelaskan konsep ke OP bingung dan mengarahkannya ke beberapa literatur. Ini adalah topik besar dan digunakan dalam aplikasi yang tampaknya berbeda. Yang lain mungkin bisa menjelaskan perinciannya dengan istilah sederhana lebih baik daripada yang saya bisa. Saya tahu bahwa ketika Anda memutuskan untuk menjawab pertanyaan, Anda menggunakan babi utuh dan menyediakan grafik yang bagus, melihat detail teknis menggunakan bahasa sederhana. Pos-pos itu hampir selalu memuaskan komunitas dengan kejelasan dan kelengkapannya dan saya berani mengatakan juga memuaskan OP setidaknya sebagian. Mungkin beberapa kalimat dengan persamaan akan cukup seperti yang Anda sarankan.
Michael R. Chernick
Mungkin itu lebih baik bagi masyarakat untuk menjawab pertanyaan daripada hanya menunjuk ke sumber lain atau bahkan menyediakan tautan. Saya hanya merasa bahwa apa yang saya lakukan sudah memadai dan OP yang mengaku sebagai seorang pemula statistik harus melakukan upaya sendiri terlebih dahulu.
Michael R. Chernick
5
Anda benar juga. Saya bertanya-tanya, apakah mungkin hanya dalam satu atau dua kalimat lagi - tidak ada matematika, tidak ada grafik, hampir tidak ada pekerjaan tambahan - untuk memberikan jawaban atas pertanyaan yang diajukan. Dalam hal ini deskripsi harus menekankan bahwa seseorang memperkirakan ekspektasi (bukan sembarang "parameter"), maka mungkin menunjukkan bahwa karena ekspektasi menjumlahkan produk nilai dan probabilitas, maka seseorang mendapatkan hasil yang sama dengan mengubah probabilitas ( dengan distribusi yang mudah diambil dari sampel) dan menyesuaikan nilai untuk mengompensasi itu.
whuber
33

Importance sampling adalah metode simulasi atau Monte Carlo yang ditujukan untuk perkiraan integral. Istilah "pengambilan sampel" agak membingungkan karena tidak bermaksud memberikan sampel dari distribusi yang diberikan.

Intuisi di balik sampel penting adalah bahwa integral yang didefinisikan dengan baik, seperti dapat dinyatakan sebagai harapan untuk berbagai distribusi probabilitas: Saya = E f [ H ( X ) ] = X H ( x ) f ( x )

I=Xh(x)dx
mana f menunjukkan kepadatan distribusi probabilitas dan H ditentukan oleh h dan f . (Perhatikan bahwa H ( ) biasanya berbeda dari h ( ) .)Memang, pilihan H ( x ) = h ( x )
I=Ef[H(X)]=XH(x)f(x)dx
fHhfH()h() mengarah ke persamaanH(x)f(x)=h(x)danI=Ef[H(X)]- dibawah beberapa batasan pada dukunganf, artinyaf(x)>0saath(x)0-
H(x)=h(x)f(x)
H(x)f(x)=h(x)I=Ef[H(X)]ff(x)>0h(x)0. Oleh karena itu, seperti yang ditunjukkan oleh W. Huber dalam komentarnya, tidak ada kesatuan dalam representasi integral sebagai harapan, tetapi sebaliknya array yang tak terbatas dari representasi seperti itu, beberapa di antaranya lebih baik daripada yang lain sekali kriteria untuk membandingkan mereka diadopsi. Sebagai contoh, Michael Chernick menyebutkan memilih untuk mengurangi varians dari estimator.f

Setelah properti elementer ini dipahami, implementasi idenya adalah untuk bergantung pada Hukum Angka Besar seperti dalam metode Monte Carlo lainnya, yaitu, untuk mensimulasikan [melalui generator pseudo-acak] sampel iid didistribusikan dari f dan menggunakan pendekatan I = 1(x1,,xn)fyang

I^=1ni=1nH(xi)
  1. adalah penaksir yang tidak bias dari I
  2. konvergen hampir pasti ke I

Tergantung pada pilihan distribusi , estimator atas saya mungkin atau mungkin tidak memiliki varians yang terbatas. Namun, selalu ada pilihan f yang memungkinkan untuk varian terbatas dan bahkan untuk varian kecil sewenang-wenang (meskipun pilihan itu mungkin tidak tersedia dalam praktik). Dan ada juga ada pilihan f yang membuat sampling pentingnya estimator saya pendekatan yang sangat miskin dari saya . Ini termasuk semua pilihan di mana varians menjadi tak terbatas, meskipun makalah baru-baru ini oleh Chatterjee dan Diaconis mempelajari bagaimana membandingkan sampler yang penting dengan varians yang tak terbatas. Gambar di bawah ini diambil darifI^ffI^Isaya diskusi blog dari kertas dan menggambarkan konvergensi miskin estimator varians yang tak terbatas.

Importance sampling with importance distribution an Exp(1) distribution target distribution an Exp(1/10) distribution, and function of interest $h(x)=x$. The true value of the integral is $10$.

Pengambilan sampel penting dengan distribusi penting suatu Exp (1) distribusi target distribusi suatu Exp (1/10) distribusi, dan fungsi bunga . Nilai sebenarnya dari integral adalah 10 .h(x)=x10

[Berikut ini direproduksi dari buku kami Metode Statistik Monte Carlo .]

f

Xh(x)f(x)dx

pC(0,1)2

p=2+1π(1+x2)dx.
p
p^1=1mj=1mIXj>2
X1,,Xm C(0,1)p(1p)/m0.127/mp=0.15

C(0,1)

p^2=12mj=1mI|Xj|>2
p(12p)/2m0.052/m

[2,+)pp

p=12021π(1+x2)dx,
h(X)=2/π(1+X2)XU[0,2]p
p^3=121mj=1mh(Uj)
UjU[0,2]p^3(E[h2]E[h]2)/m0.0285/mp
p=01/2y2π(1+y2)dy,
14h(Y)=1/2π(1+Y2)[0,1/2]p
p^4=14mj=1mh(Yj)
YjU[0,1/2]p^40.95104/m

p^1p^4103100032p^1

Xi'an
sumber
5
Terima kasih @Xi atas kesusahan mengilustrasikan sampel penting dengan cara yang dapat dihargai semua orang dan saya pikir lebih dari memuaskan permintaan Bill Huber. +1
Michael R. Chernick
2
Saya ingin mencatat bahwa pada awalnya posting ini ditangguhkan dan terima kasih atas kontribusi beberapa orang. Kami datang dengan utas informatif.
Michael R. Chernick
5
Christian, saya ingin menyampaikan terima kasih dan mengungkapkan perasaan istimewa bahwa Anda secara aktif membagikan materi yang sangat baik kepada kami.
whuber
4
Saya hanya ingin menambahkan ucapan terima kasih kepada Xi'an yang berbaik hati melakukan beberapa pengeditan untuk meningkatkan jawaban saya meskipun dia memberikan salah satu jawabannya.
Michael R. Chernick
3
Ini harus menjadi salah satu posting terbaik di stats.stackexchange. Terima kasih telah berbagi!
dohmatob