Integrasi Monte Carlo untuk fungsi-fungsi yang dapat diintegrasikan non-persegi

9

Saya harap ini adalah tempat yang tepat untuk bertanya, jika tidak merasa ragu untuk memindahkannya ke forum yang lebih tepat.

Saya sudah lama bertanya-tanya bagaimana cara memperlakukan fungsi yang tidak dapat diintegrasikan dengan Monte Carlo Integration. Saya tahu bahwa MC masih memberikan estimasi yang tepat tetapi kesalahannya tidak dapat dialiukan (berbeda?) Untuk fungsi-fungsi semacam itu.

Mari kita batasi kita pada satu dimensi. Integrasi Monte Carlo berarti kami memperkirakan integral

I=01dxf(x)

menggunakan taksiran

E=1Ni=1Nf(xi)

dengan titik acak terdistribusi secara seragam. Hukum bilangan besar memastikan bahwa . Varians sampelE Ixi[0,1]EI

S2=1N1i=1N(f(xi)E)2

mendekati varians dari distribusi yang disebabkan oleh . Namun, jika tidak persegi-integrable, yaitu integral dari fungsi kuadrat menyimpang, ini menyiratkan f fσ2ff

σ2=01dx(f(x)I)2=01dxf2(x)I2

artinya juga varians menyimpang.

Contoh sederhana adalah fungsinya

f(x)=1x

yang dan .σ2=10dxI=01dx1x=2σ2=01dx(1x2)=[lnx2x]01

Jika terbatas, seseorang dapat memperkirakan kesalahan rata-rata oleh , tetapi bagaimana jika tidak dapat diintegrasikan? E Sσ2E f(x)SNσNf(x)

cschwan
sumber
1
Saya tidak mengerti: Anda memulai dengan mencatat bahwa tidak ada memiliki varian dan kemudian bertanya apakah varian rata-rata mereka akan menjadi penaksir yang masuk akal - bahwa varian tidak ada! Atau apakah saya salah membaca pertanyaan ini: mungkin dengan "estimasi statistik independen" Anda memiliki beberapa yang berbeda (mungkin kuat) estimator dari integral dalam pikiran? Ei
whuber
Saya tidak mengatakan tidak memiliki varians, hanya saja saya tidak dapat mendefinisikan varians untuknya dengan . Jadi pertanyaannya adalah apakah saya dapat mendefinisikan kesalahan sama sekali dan jika adalah kandidat yang masuk akal. Secara statistik saya maksudkan bahwa diperoleh dengan menggunakan nomor acak yang berbeda, misalnya dengan menggunakan generator nomor acak berbeda yang diunggulkan (saya harap itu istilah yang tepat). S 2 ˉ S 2 E iES2S¯2Ei
cschwan
Tolong jelaskan apa yang Anda maksud dengan tidak dapat "mendefinisikan varian untuk itu dengan " Saya tidak dapat memahaminya dengan menggunakan definisi varian standar dan . S 2S2S2
whuber
Nah, fungsinya tidak persegi-integrable jadi, jika saya tidak salah, harus menyimpang . Jika demikian, definisi untuk tidak masuk akal sejak awal, bukan? Dengan menggunakan teorema limit pusat, bagaimanapun, masih akan menyatu dengan nilai sebenarnya dari integral, tetapi tanpa kesalahan nilai ini saja tidak masuk akal (seberapa 'baik' hasil ini?). S 2 ES2S2E
cschwan
Maaf, saya bermaksud mengatakan "hukum jumlah besar" tentu saja, bukan CLT.
cschwan

Jawaban:

2

Anda bisa menggunakan skala / ukuran dispersi lain seperti rentang interquantile, yang tidak terpengaruh oleh asimtotik ekor dan dengan demikian integritas persegi. Dengan manfaat tambahan yang seringkali mereka secara umum lebih kuat pula.

Jelas seseorang harus menerapkannya pada resampling / bootstrap diikuti oleh estimator rata-rata, tidak langsung hanya ke output mentah dari pengambilan sampel MC dari fungsi sebelum rata-rata. Anda juga dapat memeriksa secara umum L-estimator dan mengadaptasi salah satu dari mereka untuk menggabungkan dua langkah ini menjadi satu untuk kinerja, tetapi secara mental kedua distribusi tidak akan bingung, meskipun PDF estimator secara alami akan mewarisi beberapa karakteristik (termasuk mungkin kurangnya persegi) keterpaduan).

Kuarsa
sumber
+1, saya harus menambahkan bahwa hukum jumlah besar tidak memerlukan momen kedua, jadi ini adalah saran yang sangat bagus.
mpiktas
Terima kasih atas jawaban anda! Saya harus mengakui bahwa saya membaca istilah-istilah itu untuk pertama kalinya, tetapi dari melihat mereka di WP saya pikir jawaban Anda mengarahkan saya ke arah yang benar. Bisakah Anda atau orang lain menyarankan beberapa artikel atau buku yang menjelaskan subjek secara lebih rinci?
cschwan
Saya perhatikan sekarang bahwa mungkin jawaban saya agak tidak jelas. Karena Anda mensimulasikan Anda tidak benar-benar membutuhkan resampling / bootstrap, secara teori Anda bisa menambahkan sampel baru lebih lanjut dan mendapatkan distribusi empiris untuk estimator rata-rata. Hanya jika sumber daya menjadi perhatian maka Anda dapat menghitung ulang rata-rata parsial dan sampel ulang, tetapi statistik tidak akan sepele jika dilakukan dengan baik. Saya bukan ahli boostrap jadi saya akan memberikan saran itu kepada orang lain, hanya ingin menunjukkannya jika Anda perlu melampaui formulasi langsung. Berkonsentrasilah pada langkah-langkah dispersi pertama, optimalkan nanti.
Kuarsa
Pengukur rata-rata yang diusulkan tidak memiliki varian terbatas. Tidak masalah jika seseorang menambahkan sampel lebih lanjut, distribusi penduga secara empiris juga akan memiliki varian yang tidak terbatas. Anda dapat mengkonfirmasi ini dengan beberapa simulasi.
rajb245
1
Tentu, sebenarnya itulah yang sedang dibahas dan alasan mengapa seseorang harus menggunakan ukuran dispersi yang lain.
Kuarsa