Parameter kemungkinan maksimum menyimpang dari distribusi posterior

11

Saya memiliki fungsi kemungkinan untuk kemungkinan data saya memberikan beberapa parameter model , yang ingin saya perkirakan. Dengan asumsi prior prior pada parameter, kemungkinan proporsional dengan probabilitas posterior. Saya menggunakan metode MCMC untuk sampel probabilitas ini. $\mathcal{L}(d | \theta)$ $d$ $\theta \in \mathbf{R}^N$

Melihat rantai konvergen yang dihasilkan, saya menemukan bahwa parameter kemungkinan maksimum tidak konsisten dengan distribusi posterior. Sebagai contoh, distribusi probabilitas posterior terpinggirkan untuk salah satu parameter mungkin , sedangkan nilai pada titik kemungkinan maksimum adalah , pada dasarnya hampir menjadi nilai maksimum dilalui oleh MCMC sampler. $\theta_0 \sim N(\mu=0, \sigma^2=1)$ $\theta_0$ $\theta_0^{ML} \approx 4$ $\theta_0$

Ini adalah contoh ilustrasi, bukan hasil aktual saya. Distribusi nyata jauh lebih rumit, tetapi beberapa parameter ML memiliki nilai p yang hampir tidak mungkin pada masing-masing distribusi posterior. Perhatikan bahwa beberapa parameter saya dibatasi (mis. ); dalam batas, prior selalu seragam. $0 \leq \theta_1 \leq 1$

Pertanyaan saya adalah:

Apakah penyimpangan seperti itu merupakan masalah semata ? Jelas saya tidak berharap parameter ML persis bertepatan dengan yang maksimal dari masing-masing distribusi posterior terpinggirkan mereka, tetapi secara intuitif rasanya seperti mereka juga tidak boleh ditemukan jauh di dalam ekor. Apakah penyimpangan ini secara otomatis membatalkan hasil saya?
Apakah ini selalu bermasalah atau tidak, mungkinkah itu merupakan gejala patologi spesifik pada tahap analisis data tertentu? Sebagai contoh, apakah mungkin untuk membuat pernyataan umum tentang apakah penyimpangan seperti itu dapat disebabkan oleh rantai yang tidak terkonvergensi dengan benar, model yang salah, atau batasan yang terlalu ketat pada parameter?

bayesian maximum-likelihood optimization inference mcmc mgc70
sumber

15

Dengan prior datar, posterior identik dengan kemungkinan hingga konstan. Jadi

MLE (diperkirakan dengan pengoptimal) harus identik dengan MAP (maksimum nilai posteriori = mode multivariat posterior, diperkirakan dengan MCMC). Jika Anda tidak mendapatkan nilai yang sama, Anda memiliki masalah dengan sampler atau pengoptimal Anda.
Untuk model yang kompleks, sangat umum bahwa mode marginal berbeda dari MAP. Ini terjadi, misalnya, jika korelasi antara parameter nonlinier. Ini sangat baik, tetapi karena itu mode marginal tidak boleh ditafsirkan sebagai titik-titik kepadatan posterior tertinggi, dan tidak dapat dibandingkan dengan MLE.
Namun, dalam kasus spesifik Anda, saya menduga bahwa posterior berjalan melawan batas sebelumnya. Dalam hal ini, posterior akan sangat asimetris, dan tidak masuk akal untuk menafsirkannya dalam hal mean, sd. Tidak ada masalah prinsip dengan situasi ini, tetapi dalam praktiknya sering mengisyaratkan spesifikasi salah model, atau prior yang dipilih dengan buruk.

Florian Hartig
sumber

15

Beberapa penjelasan umum yang mungkin untuk perbedaan yang dirasakan ini, dengan asumsi tentu saja tidak ada masalah dengan kode atau definisi kemungkinan atau implementasi MCMC atau jumlah iterasi MCMC atau konvergensi dari kemungkinan pemaksimalan (terima kasih, Jacob Socolar ):

dalam dimensi besar , posterior tidak berkonsentrasi pada maksimum tetapi sesuatu dari jarak urutan dari mode, yang berarti bahwa nilai terbesar dari fungsi kemungkinan yang dihadapi oleh MCMC sampler seringkali cukup di bawah nilai kemungkinan maksimal. Misalnya, jika posterior adalah , setidaknya pada jarak dari mode, . $N$ $\sqrt{N}$ $\theta|\mathbf x\sim\mathcal N_N(0,I_N)$ $\theta$ $N-2\sqrt{2N}$ $0$
Sementara MAP dan MLE memang dikacaukan di bawah flat sebelumnya, kepadatan marginal dari berbagai parameter model mungkin memiliki mode (marginal) yang jauh dari MLE yang sesuai (yaitu, MAPs).
MAP adalah posisi dalam ruang parameter di mana kepadatan posterior tertinggi tetapi ini tidak memberikan indikasi berat posterior atau volume untuk lingkungan MAP. Lonjakan yang sangat tipis tidak memiliki bobot posterior. Ini juga alasan mengapa eksplorasi MCMC posterior mungkin menghadapi kesulitan dalam mengidentifikasi mode posterior.
Fakta bahwa sebagian besar parameter dibatasi dapat menyebabkan beberapa komponen MAP = MLE terjadi pada batas.

Lihat, misalnya, Druihlet dan Marin (2007) untuk argumen tentang sifat penduga MAP yang tidak Bayesian . Salah satunya adalah ketergantungan pada estimator ini pada ukuran yang mendominasi, yang lain adalah kurangnya invariansi dalam reparameterisasi (tidak seperti MLE).

Sebagai contoh poin 1 di atas, berikut adalah kode R pendek

N=100
T=1e4
lik=dis=rep(0,T)
mu=rmvnorm(1,mean=rep(0,N))
xobs=rmvnorm(1,mean=rep(0,N))
lik[1]=dmvnorm(xobs,mu,log=TRUE)
dis[1]=(xobs-mu)%*%t(xobs-mu)
for (t in 2:T){
  prop=rmvnorm(1,mean=mu,sigma=diag(1/N,N))
  proike=dmvnorm(xobs,prop,log=TRUE)
  if (log(runif(1))<proike-lik[t-1]){
    mu=prop;lik[t]=proike
     }else{lik[t]=lik[t-1]}
    dis[t]=(xobs-mu)%*%t(xobs-mu)}

yang meniru urutan Metropolis-Hastings jalan-acak di dimensi N = 100. Nilai kemungkinan log pada MAP adalah -91.89, tetapi kemungkinan yang dikunjungi tidak pernah mendekati:

> range(lik)
[1] -183.9515 -126.6924

yang dijelaskan oleh fakta bahwa urutan tidak pernah mendekati pengamatan:

> range(dis)
[1]  69.59714 184.11525

Xi'an
sumber

3

Saya hanya menambahkan bahwa selain khawatir tentang kode atau definisi kemungkinan atau implementasi MCMC, OP mungkin juga khawatir tentang apakah perangkat lunak yang digunakan untuk mendapatkan estimasi ML terjebak dalam optimal lokal. stats.stackexchange.com/questions/384528/…

Jacob Socolar

Parameter kemungkinan maksimum menyimpang dari distribusi posterior

Jawaban: