Memecahkan persamaan integral sederhana dengan pengambilan sampel acak

Biarkan menjadi fungsi non-negatif. Saya tertarik menemukan sedemikian rupa sehingga Peringatan itu : yang bisa saya lakukan adalah sampel pada titik di . Aku bisa, bagaimanapun, memilih lokasi di mana saya sampel secara acak, jika saya menginginkannya. $f$ $z \in [0,1]$

\int_{0}^{z} f (x) d x = \frac{1}{2} \int_{0}^{1} f (x) d x

$\int_0^{z} f(x)\,dx = \frac{1}{2}\int_0^1 f(x)\,dx$

f

$f$

[0, 1]

$[0,1]$

f

$f$

Pertanyaan:

Apakah mungkin untuk mendapatkan estimasi tidak bias setelah banyak sampel? Jika demikian, berapakah varian terkecil yang dapat dimiliki dari estimasi tersebut setelah sampel ? $z$ $k$
Jika tidak, prosedur apa yang tersedia untuk memperkirakan , dan apa waktu konvergensi yang terkait. $z$

Seperti yang ditunjukkan oleh Douglas Zare dalam komentar, ini bisa sangat sulit dilakukan jika fungsinya mendekati nol atau sangat besar. Untungnya, fungsi yang perlu saya gunakan untuk ini dibatasi dari atas dan bawah, jadi anggaplah . Selain itu, kita juga dapat mengasumsikan bahwa adalah Lipschitz atau bahkan dapat dibedakan jika itu membantu. $1 \leq f(x) \leq 2$ $f$

sampling monte-carlo quantiles quasi-monte-carlo Robinson
sumber

Jika Anda tidak memiliki informasi lebih lanjut, Anda dapat memiliki perilaku yang sangat buruk. Bayangkan bahwa adalah

f

$f$

0

$0$ antara

1 / 3

$1/3$ dan

2 / 3

$2/3$ , dan

\int_{0}^{1 / 3} f (x) d x \approx 1 / 2.

$\int_0^{1/3} f(x)~dx \approx 1/2.$ Sedikit perubahan ke

f

$f$ akan membuat median lompatan dari bawah

1 / 3

$1/3$ ke atas

2 / 3

$2/3$ .

Douglas Zare

@robinson Bisakah Anda memberikan informasi lebih lanjut tentang

f

$f$ ? Atau apakah Anda tertarik untuk memecahkan masalah untuk kepadatan apa pun

f

$f$ ?

@DouglasZare - Terima kasih atas komentarnya; lihat hasil edit saya.

robinson

@Prastrastator - Saya mengedit pertanyaan dengan sedikit informasi lebih lanjut.

robinson

(+1) Untuk pembaruan. Membagi sisi kiri dengan kanan, orang dapat melihat bahwa ini mengurangi untuk menemukan median dari distribusi probabilitas yang tidak diketahui didukung pada

[0, 1]

$[0,1]$ .

kardinal

Jawaban:

Seperti yang ditunjukkan kardinal dalam komentarnya, pertanyaan Anda dapat disajikan kembali sebagai berikut.

Dengan aljabar sederhana, persamaan integral dapat ditulis ulang sebagai

\int_{0}^{z} g (x) d x = \frac{1}{2},

$\int_0^z g(x)\,dx = \frac{1}{2} \, ,$ di mana

g

$g$ adalah fungsi kepadatan probabilitas didefinisikan sebagai

g (x) = \frac{f (x)}{\int_{0}^{1} f (t) d t} .

$g(x)=\frac{f(x)}{\int_0^1 f(t)\,dt} \, .$

Membiarkan $X$ menjadi variabel acak dengan kerapatan $g$ . Menurut definisi, $P\{X\leq z\}=\int_0^z g(x)\,dx$ , jadi persamaan integral Anda setara dengan

P {X \leq z} = \frac{1}{2},

$P\{X\leq z\}=\frac{1}{2} \, ,$ yang berarti bahwa masalah Anda dapat dinyatakan sebagai:

"Membiarkan $X$ menjadi variabel acak dengan kerapatan $g$ . Temukan median $X$ . "

Untuk memperkirakan median $X$ , gunakan metode simulasi apa pun untuk menggambar sampel nilai $X$ dan ambil sebagai estimasi Anda median sampel.

Salah satu kemungkinan adalah menggunakan algoritma Metropolis-Hastings untuk mendapatkan sampel poin dengan distribusi yang diinginkan. Karena ekspresi probabilitas penerimaan dalam algoritma Metropolis-Hastings, kita tidak perlu mengetahui nilai konstanta normalisasi $\int_0^1 f(t)\,dt$ kepadatan $g$ . Jadi, kita tidak perlu melakukan integrasi ini.

Kode di bawah ini menggunakan bentuk sederhana dari algoritma Metropolis-Hastings yang dikenal sebagai Indepence Sampler, yang menggunakan proposal yang distribusinya tidak bergantung pada nilai rantai saat ini. Saya telah menggunakan proposal seragam independen. Sebagai perbandingan, skrip menampilkan minimum Monte Carlo dan hasilnya ditemukan dengan optimasi standar. Titik sampel disimpan dalam vektor chain, tetapi kami membuang yang pertama $10000$ titik yang membentuk apa yang disebut periode "terbakar" dalam simulasi.

BURN_IN = 10000
DRAWS   = 100000

f = function(x) exp(sin(x))

chain = numeric(BURN_IN + DRAWS)

x = 1/2

for (i in 1:(BURN_IN + DRAWS)) {
    y = runif(1) # proposal
    if (runif(1) < min(1, f(y)/f(x))) x = y
    chain[i] = x
}

x_min = median(chain[BURN_IN : (BURN_IN + DRAWS)])

cat("Metropolis minimum found at", x_min, "\n\n")

# MONTE CARLO ENDS HERE. The integrations bellow are just to check the results.

A = integrate(f, 0, 1)$value

F = function(x) (abs(integrate(f, 0, x)$value - A/2))

cat("Optimize minimum found at", optimize(F, c(0, 1))$minimum, "\n")

Berikut ini beberapa hasilnya:

Metropolis minimum found at 0.6005409 
Optimize minimum found at 0.601365

Kode ini dimaksudkan hanya sebagai titik awal untuk apa yang benar-benar Anda butuhkan. Karenanya, gunakan dengan hati-hati.

Zen
sumber

Terima kasih atas jawaban anda. Saya tidak tahu R, jadi saya tidak yakin bagaimana menguraikan apa yang Anda lakukan. Bisakah Anda menyatakan dengan kata-kata / formula prosedur Anda? Terima kasih. Secara khusus, saya bertanya-tanya apakah Anda menghargai batasan bahwa satu-satunya hal yang dapat Anda lakukan adalah mengevaluasi f - Anda tidak diperbolehkan, misalnya, untuk mengintegrasikan

f

$f$ , (walaupun Anda tentu saja dapat membentuk perkiraan Monte-Carlo untuk integral berdasarkan evaluasi acak).

robinson

Ya, saya hanya mengevaluasi

f

$f$ untuk mendapatkan estimasi Monte Carlo.

Zen

Kode hanyalah sebuah contoh. Sintaks R mirip dengan bahasa lain. Adakah pernyataan khusus yang tidak Anda mengerti? Lihatlah halaman Wikipedia pada algoritma Metropolis-Hastings. Tentu saja, gagasan umum lebih penting. Anda dapat mencicipi dari menu

f / \int f

$f/\int f$ menggunakan metode apa pun yang Anda miliki.

Zen

Apakah Anda mengambil kursus pengantar tentang proses stokastik, yang mencakup rantai Markov waktu diskrit?

Zen

BTW: Penunda dunia, bersatu! Tapi tidak hari ini ...

Zen

Kualitas perkiraan integral, setidaknya dalam kasus sesederhana 1D, diberikan oleh (Teorema 2.10 dalam Niederreiter (1992) ):

| \frac{1}{N} \sum_{n = 1}^{N} f (x_{n}) - \int_{0}^{1} f (u) d u | \leq ω (f; D_{N}^{*} (x_{1}, \dots, x_{N}))

$\Bigl|\frac 1N \sum_{n=1}^N f(x_n) - \int_0^1 f(u) \, {\rm d}u \Bigr| \le \omega (f; D_N^*(x_1, \ldots, x_N) )$ dimana

ω (f; t) = sup {| f (u) - f (v) | : u, v \in [0, 1], | u - v | \leq t, t > 0}

$\omega(f;t) = \sup \{ |f(u)-f(v)| : u, v \in [0,1], |u-v|\le t , t>0\}$ adalah modulus fungsi kontinuitas (terkait dengan variasi total, dan mudah diekspresikan untuk fungsi Lipshitz), dan

D_{N}^{*} (x_{1}, \dots, x_{N}) = sup_{u} | \frac{1}{N} \sum_{n} 1 {x_{n} \in [0, u)} - u | = \frac{1}{2 N} + max_{n} | x_{n} - \frac{2 n - 1}{2 N} |

$D_N^*(x_1,\ldots,x_N) = \sup_u \Bigl| \frac1N \sum_n 1\bigl\{ x_n \in [0,u) \bigr\} - u \Bigr| = \frac1{2N} + \max_n \Bigl|x_n - \frac{2n-1}{2N}\Bigr|$ adalah perbedaan (ekstrim), atau perbedaan maksimum antara fraksi hit dengan urutan

x_{1}, \dots, x_{N}

$x_1, \ldots, x_N$ dari interval semi-terbuka

[0, u)

$[0,u)$ dan ukuran Lebesgue-nya

u

$u$ . Ekspresi pertama adalah definisi, dan ekspresi kedua adalah properti dari urutan 1D di

[0, 1]

$[0,1]$ (Teorema 2.6 dalam buku yang sama).

Jadi jelas untuk meminimalkan kesalahan dalam perkiraan integral, setidaknya dalam RHS persamaan Anda, Anda perlu mengambil $x_n = (2n-1)/2N$ . Sekrup evaluasi acak, mereka berisiko memiliki kesenjangan acak pada fitur penting dari fungsi.

Kerugian besar dari pendekatan ini adalah Anda harus berkomitmen pada suatu nilai $N$ untuk menghasilkan urutan yang didistribusikan secara seragam ini. Jika Anda tidak puas dengan kualitas perkiraan yang diberikannya, yang dapat Anda lakukan hanyalah menggandakan nilai $N$ dan tekan semua titik tengah dari interval yang dibuat sebelumnya.

Jika Anda ingin memiliki solusi di mana Anda dapat meningkatkan jumlah poin secara lebih bertahap, Anda dapat terus membaca buku itu, dan belajar tentang urutan van der Corput dan invers radikal. Lihat urutan perbedaan rendah di Wikipedia, ini memberikan semua detail.

Perbarui: untuk dipecahkan $z$ , tentukan jumlah parsial

S_{k} = \frac{1}{N} \sum_{n = 1}^{k} f (\frac{2 n - 1}{2 N}) .

$S_k = \frac1N \sum_{n=1}^k f\Bigl( \frac{2n-1}{2N} \Bigr).$ Temukan

k

$k$ seperti yang

S_{k} \leq \frac{1}{2} S_{N} < S_{k + 1},

$S_k \le \frac12 S_N < S_{k+1},$ dan interpolasi untuk menemukan

z_{N} = \frac{2 k - 1}{2 N} + \frac{S_{N} / 2 - S_{k}}{N (S_{k + 1} - S_{k})} .

$z_N = \frac{2k-1}{2N} + \frac{S_N/2 - S_k}{N(S_{k+1}-S_k)}.$ Interpolasi ini mengasumsikan itu

f (\cdot)

$f(\cdot)$ kontinu. Jika tambahan

f (\cdot)

$f(\cdot)$ dua kali dapat dibedakan, maka pendekatan ini dengan mengintegrasikan ekspansi orde kedua untuk dimasukkan

S_{k - 1}

$S_{k-1}$ dan

S_{k + 2}

$S_{k+2}$ , dan memecahkan persamaan kubik untuk

z

$z$ .

Tugas
sumber

Saya suka intinya. Saya pikir akan sangat membantu untuk membuat lebih eksplisit strategi yang Anda usulkan untuk menyelesaikan pertanyaan OP. Saat ini, jawabannya berbunyi (untuk saya) sebagian besar seolah-olah membahas bagaimana menghitung RHS dari persamaan dalam pertanyaan.

kardinal

(+1) Pembaruan yang bagus.

S_{N}

$S_N$ hanya dapat dilihat sebagai pendekatan Riemann-sum ke integral di mana kita menggunakan nilai

f

$f$ di titik tengah setiap interval yang ditentukan oleh partisi, daripada titik akhir kiri atau kanan. :-)

cardinal

Iya; namun menarik bahwa jumlah Riemann ini memiliki pembenaran optimalitas ini.

Tugas