Integrasi Metropolis-Hastings - mengapa strategi saya tidak berhasil?

Asumsikan saya memiliki fungsi $g(x)$ yang ingin saya integrasikan

\int_{- \infty}^{\infty} g (x) d x .

$\int_{-\infty}^\infty g(x) dx.$ Tentu saja dengan asumsi

g (x)

$g(x)$ menjadi nol pada titik akhir, tidak ada semburan, fungsi yang bagus. Salah satu cara yang saya telah mengutak-atik adalah dengan menggunakan algoritma Metropolis-Hastings untuk menghasilkan daftar sampel

x_{1}, x_{2}, \dots, x_{n}

$x_1, x_2, \dots, x_n$ dari distribusi proporsional untuk

g (x)

$g(x)$ , yang hilang konstanta normalisasi

N = \int_{- \infty}^{\infty} g (x) d x

$N = \int_{-\infty}^{\infty} g(x)dx$ yang akan saya sebut

p (x)

$p(x)$ , dan kemudian menghitung beberapa statistik

f (x)

$f(x)$ pada

ini

x

$x$ :

\frac{1}{n} \sum_{i = 0}^{n} f (x_{i}) \approx \int_{- \infty}^{\infty} f (x) p (x) d x .

$\frac{1}{n} \sum_{i=0}^n f(x_i) \approx \int_{-\infty}^\infty f(x)p(x)dx.$

Karena , saya dapat mengganti dalam untuk membatalkan dari integral, menghasilkan ekspresi bentuk $p(x) = g(x)/N$ $f(x) = U(x)/g(x)$ $g$ Jadi asalkanterintegrasi kesepanjang wilayah itu, saya harus mendapatkan hasil, yang bisa saya ambil secara timbal balik untuk mendapatkan jawaban yang saya inginkan. Oleh karena itu saya dapat mengambil rentang sampel saya (untuk menggunakan titik-titik yang paling efektif)dan biarkanuntuk setiap sampel yang telah saya gambar. Dengan begitu

\frac{1}{N} \int_{- \infty}^{\infty} \frac{U (x)}{g (x)} g (x) d x = \frac{1}{N} \int_{- \infty}^{\infty} U (x) d x .

$\frac{1}{N}\int_{-\infty}^{\infty}\frac{U(x)}{g(x)} g(x) dx = \frac{1}{N}\int_{-\infty}^\infty U(x) dx.$

U (x)

$U(x)$

1

$1$

1 / N

$1/N$

r = x_{max} - x_{min}

$r = x_\max - x_\min$

U (x) = 1 / r

$U(x) = 1/r$

U (x)

$U(x)$ mengevaluasi nol di luar wilayah di mana sampel saya tidak, tetapi terintegrasi ke

di wilayah itu. Jadi jika sekarang saya mengambil nilai yang diharapkan, saya harus mendapatkan:

1

$1$

E [\frac{U (x)}{g (x)}] = \frac{1}{N} \approx \frac{1}{n} \sum_{i = 0}^{n} \frac{U (x)}{g (x)} .

$E\left [\frac{U(x)}{g(x)}\right ] = \frac{1}{N} \approx \frac{1}{n} \sum_{i=0}^n \frac{U(x)}{g(x)}.$

Saya mencoba menguji ini dalam R untuk fungsi sampel . Dalam hal ini saya tidak menggunakan Metropolis-Hastings untuk menghasilkan sampel tetapi menggunakan probabilitas aktual untuk menghasilkan sampel (hanya untuk menguji). Saya tidak begitu mendapatkan hasil yang saya cari. Pada dasarnya ekspresi penuh dari apa yang saya hitung adalah: $g(x) = e^{-x^2}$ rnorm Ini seharusnya dalam teori saya mengevaluasi ke

\frac{1}{n (x_{max} - x_{min})} \sum_{i = 0}^{n} \frac{1}{e^{- x_{i}^{2}}} .

$\frac{1}{n(x_{\max} - x_\min)} \sum_{i=0}^n \frac{1}{ e^{-x_i^2}}.$

1 / \sqrt{π}

$1/\sqrt{\pi}$ . Mendekat tapi tentu saja tidak menyatu dengan cara yang diharapkan, apakah saya melakukan sesuatu yang salah?

ys = rnorm(1000000, 0, 1/sqrt(2))
r = max(ys) - min(ys)
sum(sapply(ys, function(x) 1/( r * exp(-x^2))))/length(ys)
## evaluates to 0.6019741. 1/sqrt(pi) = 0.5641896

Edit untuk CliffAB

Alasan saya menggunakan rentang hanya untuk dengan mudah mendefinisikan fungsi yang bukan nol di atas wilayah di mana poin saya berada, tetapi itu terintegrasi ke pada rentang . Spesifikasi lengkap fungsi adalah: $1$ $[-\infty, \infty]$ Saya tidak harus menggunakansebagai kerapatan seragam ini. Saya bisa menggunakan beberapa kerapatan lain yang terintegrasi ke, misalnya kerapatan probabilitas

U (x) = {\begin{cases} \frac{1}{x_{max} - x_{min}} & x_{max} > x > x_{min} \\ 0 & otherwise. \end{cases}

$U(x) = \begin{cases} \frac{1}{x_\max - x_\min} & x_\max > x > x_\min \\ 0 & \text{otherwise.} \end{cases}$

U (x)

$U(x)$

1

$1$

Namun ini akan membuat menjumlahkan sampel individu sepele yaitu

P (x) = \frac{1}{\sqrt{π}} e^{- x^{2}} .

$P(x) = \frac{1}{\sqrt{\pi}} e^{-x^2}.$

\frac{1}{n} \sum_{i = 0}^{n} \frac{P (x)}{g (x)} = \frac{1}{n} \sum_{i = 0}^{n} \frac{e^{- x_{i}^{2}} / \sqrt{π}}{e^{- x_{i}^{2}}} = \frac{1}{n} \sum_{i = 0}^{n} \frac{1}{\sqrt{π}} = \frac{1}{\sqrt{π}} .

$\frac{1}{n} \sum_{i=0}^n \frac{P(x)}{g(x)} = \frac{1}{n} \sum_{i=0}^n \frac{e^{-x_i^2}/\sqrt{\pi}}{e^{-x_i^2} } = \frac{1}{n} \sum_{i=0}^n \frac{1}{\sqrt{\pi}} = \frac{1}{\sqrt{\pi}}.$

Saya bisa mencoba teknik ini untuk distribusi lain yang terintegrasi ke . Namun, saya masih ingin tahu mengapa itu tidak berhasil untuk distribusi yang seragam. $1$

simulation monte-carlo metropolis-hastings numerical-integration Mike Flynn
sumber

Hanya dengan cepat melihat ini, jadi saya tidak yakin persis mengapa Anda memutuskan untuk menggunakan rentang (x). Syaratnya itu valid, itu sangat tidak efisien! Kisaran sampel dengan ukuran itu hanya sekitar statistik paling tidak stabil yang bisa Anda ambil.

Cliff AB

@CliffAB Tidak ada yang khusus tentang saya menggunakan rentang, selain mendefinisikan distribusi seragam pada interval di mana poin saya berada. Lihat hasil edit.

Mike Flynn

Saya akan melihat ini nanti secara lebih rinci. Tetapi sesuatu yang perlu dipertimbangkan adalah seolah-olah x adalah seperangkat RV seragam, maka sebagai

n \to \infty

$n \rightarrow \infty$ , jarak

(x) \to 1

$(x) \rightarrow 1$ . Tetapi jika x adalah seperangkat RV normal non-degenarate, maka sebagai

n \to \infty

$n \rightarrow \infty$ ,

range (x) \to \infty

$\text{range}(x) \rightarrow \infty$ .

Cliff AB

@CliffAB you might have been right, I think the reason was that the bounds of the integral were not fixed, and so the variance of the estimator will never converge...

Mike Flynn

Ini adalah pertanyaan yang paling menarik, yang berkaitan dengan masalah perkiraan konstanta normalisasi kepadatan $g$ berdasarkan pada output MCMC dari kepadatan yang sama $g$ . (Komentar sampingan adalah bahwa asumsi yang benar untuk dibuat adalah itu $g$ dapat diintegrasikan, pergi ke nol tanpa batas tidak cukup.)

Menurut pendapat saya, entri yang paling relevan tentang topik ini sehubungan dengan saran Anda adalah makalah oleh Gelfand dan Dey (1994, JRSS B ), di mana penulis mengembangkan pendekatan yang sangat mirip untuk menemukan

\int_{X} g (x) d x

$\int_\mathcal{X} g(x) \,\text{d}x$ saat menghasilkan dari

p (x) \propto g (x)

$p(x)\propto g(x)$ . Salah satu hasil dalam makalah ini adalah, untuk setiap probabilitas kepadatan

α (x)

$\alpha(x)$ [this is equivalent to your

U (x)

$U(x)$ ] such that

{x; α (x) > 0} \subset {x; g (x) > 0}

$\{x;\alpha(x)>0\}\subset\{x;g(x)>0\}$ the following identity

\int_{X} \frac{α (x)}{g (x)} p (x) d x = \int_{X} \frac{α (x)}{N} d x = \frac{1}{N}

$\int_\mathcal{X} \dfrac{\alpha(x)}{g(x)}p(x) \,\text{d}x=\int_\mathcal{X} \dfrac{\alpha(x)}{N} \,\text{d}x=\dfrac{1}{N}$ shows that a sample from

p

$p$ can produce an unbiased evaluation of

1 / N

$1/N$ by the importance sampling estimator

\hat{η} = \frac{1}{n} \sum_{i = 1}^{n} \frac{α (x_{i})}{g (x_{i})} x_{i} \overset{iid}{\sim} p (x)

$\hat\eta=\frac{1}{n}\sum_{i=1}^n \dfrac{\alpha(x_i)}{g(x_i)}\qquad x_i\stackrel{\text{iid}}{\sim}p(x)$ Obviously, the performances (convergence speed, existence of a variance, &tc.) of the estimator

\hat{η}

$\hat\eta$ do depend on the choice of

α

$\alpha$ [even though its expectation does not]. In a Bayesian framework, a choice advocated by Gelfand and Dey is to take

α = π

$\alpha=\pi$ , the prior density. This leads to

\frac{α (x)}{g (x)} = \frac{1}{ℓ (x)}

$\dfrac{\alpha(x)}{g(x)} = \dfrac{1}{\ell(x)}$ where

ℓ (x)

$\ell(x)$ is the likelihood function, since

g (x) = π (x) ℓ (x)

$g(x)=\pi(x)\ell(x)$ . Unfortunately, the resulting estimator

\hat{N} = \frac{n}{\sum_{i = 1}^{n} 1 / ℓ (x_{i})}

$\hat{N}=\dfrac{n}{\sum_{i=1}^n1\big/\ell(x_i)}$ is the harmonic mean estimator, also called the worst Monte Carlo estimator ever by Radford Neal, from the University of Toronto. So it does not always work out nicely. Or even hardly ever.

Your idea of using the range of your sample $(\min(x_i),\max(x_i))$ and the uniform over that range is connected with the harmonic mean issue: this estimator does not have a variance if only because because of the $\exp\{x^2\}$ appearing in the numerator (I suspect it could always be the case for an unbounded support!) and it thus converges very slowly to the normalising constant. For instance, if you rerun your code several times, you get very different numerical values after 10⁶ iterations. This means you cannot even trust the magnitude of the answer.

A generic fix to this infinite variance issue is to use for $\alpha$ a more concentrated density, using for instance the quartiles of your sample $(q_{.25}(x_i),q_{.75}(x_i))$ , because $g$ then remains lower-bounded over this interval.

When adapting your code to this new density, the approximation is much closer to $1/\sqrt{\pi}$ :

ys = rnorm(1e6, 0, 1/sqrt(2))
r = quantile(ys,.75) - quantile(ys,.25)
yc=ys[(ys>quantile(ys,.25))&(ys<quantile(ys,.75))]
sum(sapply(yc, function(x) 1/( r * exp(-x^2))))/length(ys)
## evaluates to 0.5649015. 1/sqrt(pi) = 0.5641896

We discuss this method in details in two papers with Darren Wraith and with Jean-Michel Marin.

Xi'an
sumber

Integrasi Metropolis-Hastings - mengapa strategi saya tidak berhasil?

Jawaban: