itu, Kemungkinan Maksimum
Temukan β dan θ yang memaksimalkan L (β, θ | data).
Sementara, Marginal Likelihood
Kami mengintegrasikan θ dari persamaan kemungkinan dengan mengeksploitasi fakta bahwa kami dapat mengidentifikasi distribusi probabilitas θ bersyarat pada β.
Metodologi mana yang lebih baik untuk dimaksimalkan dan mengapa?
Masing-masing akan memberikan hasil yang berbeda dengan interpretasi yang berbeda pula. Yang pertama menemukan pasangan , θ yang paling memungkinkan, sedangkan yang kedua menemukan β yang (secara marginal) paling memungkinkan. Bayangkan distribusi Anda terlihat seperti ini:βθβ
β=1β=2 θ=10.0 0.2 θ=20.1 0.2 θ=30.3 0.2
Maka jawaban kemungkinan maksimum adalah ( θ = 3 ), sedangkan jawaban kemungkinan marginal maksimum adalah β = 2 (karena, meminggirkan lebih dari θ , P ( β = 2 ) = 0,6 ).β=1θ=3β=2θP(β=2)=0.6
Saya akan mengatakan bahwa secara umum, kemungkinan marginal seringkali adalah apa yang Anda inginkan - jika Anda benar-benar tidak peduli dengan nilai-nilai parameter , maka Anda harus runtuh karenanya. Tetapi mungkin dalam prakteknya metode ini tidak akan menghasilkan hasil yang sangat berbeda - jika mereka melakukannya, maka itu mungkin menunjuk pada beberapa ketidakstabilan yang mendasari dalam solusi Anda, misalnya beberapa mode dengan kombinasi β , θ yang berbeda yang semuanya memberikan prediksi yang sama.θβθ
Saya memang menemukan hasil yang berbeda untuk metode kemungkinan maksimum / marginal dan karenanya pertanyaannya. Saya akan mengatakan bahwa dua hasil dalam kasus saya memberikan interpretasi yang berbeda tetapi hasil yang mungkin.
Ankit Chiplunkar
5
Saya sendiri sedang bergulat dengan pertanyaan ini. Inilah hasil yang mungkin bisa membantu. Pertimbangkan model linier
y=Xβ+ϵ,ϵ∼N(0,σ2)
di mana dan βy∈Rn,β∈Rp,β dan adalah parameter yang menarik. Kemungkinan bersama adalahσ2
L(β,σ2)=(2πσ2)−n/2exp(−||y−Xβ||22σ2)
Mengoptimalkan hasil kemungkinan gabungan
β^=X+y
σ^2=1n||r||2
di mana adalah pseudoinverse dari X dan r = y - X β adalah vektor residual fit. Perhatikan bahwa di σ 2 kita memiliki 1 / n bukan derajat-of-kebebasan familiar dikoreksi rasio 1 / ( n - p ) . Estimator ini diketahui bias dalam kasus sampel terbatas.X+Xr=y−Xβ^σ^21/n1/(n−p)
Sekarang anggaplah alih-alih mengoptimalkan lebih dari dan σ 2 , kami mengintegrasikan β keluar dan memperkirakan σβσ2βσ2 from the resulting integrated likelihood:
σ^2=maxσ2∫RpL(β,σ2)dβ
Using elementary linear algebra and the Gaussian integral formula, you can show that
σ^2=1n−p||r||2
This has the degrees-of-freedom correction which makes it unbiased and generally favored over the joint ML estimate.
Dari hasil ini orang mungkin bertanya apakah ada sesuatu yang secara inheren menguntungkan tentang kemungkinan terintegrasi, tetapi saya tidak tahu ada hasil umum yang menjawab pertanyaan itu. Tampaknya konsensus bahwa ML terintegrasi lebih baik dalam akuntansi untuk ketidakpastian dalam sebagian besar masalah estimasi. Khususnya, jika Anda memperkirakan kuantitas yang bergantung pada taksiran parameter lainnya (bahkan secara implisit), maka pengintegrasian atas parameter lainnya akan lebih memperhitungkan ketidakpastiannya.
@whuber Saya berbagi kekhawatiran Anda dan tidak memiliki jawaban yang siap, tetapi perhatikan bahwa kemungkinan dipinggirkan hanyalah posterior dengan seragam yang tidak pantas sebelumnya. β, jadi saya pikir ini terkait dengan pendekatan "obyektif Bayesian". Ada yang tidak peduli ketika parameter sukaβ has an improper prior distribution, so long as the posterior is integrable.
Paul
Actually, based on this post and comments therein, I think integrated ML, not marginal ML, is the right term for what we're doing here. Edited accordingly.
Paul
1
+1 I know i'm pretty late to this party but isn't integrating out fixed effects by putting an improper uniform prior on them exactly what REML does, so you've actually just obtained the REML estimate and this df correction is exactly the reason here that REML is better for smaller samples?
jld
@Chaconne yes, this post was motivated by trying to understand REML! I have (almost) no formal statistics education, so deriving this was all new to me.
Paul
4
This is usually not a matter of choice. If we are interested in the estimation of β (e.g. when β is a model hyperparameter and θ is a latent variable) and there is not a single value for θ and instead the distribution of θ in known, we need to integrate out θ. You can think of marginal likelihood as the weighted average of the likelihood for different values of θi weighted by their probability density p(θi). Now that θ has disappeared, using training samples as data, you can optimize the marginal likelihood w.r.t. β.
Saya sendiri sedang bergulat dengan pertanyaan ini. Inilah hasil yang mungkin bisa membantu. Pertimbangkan model linier
di mana dan βy∈Rn,β∈Rp, β dan adalah parameter yang menarik. Kemungkinan bersama adalahσ2
Mengoptimalkan hasil kemungkinan gabungan
di mana adalah pseudoinverse dari X dan r = y - X β adalah vektor residual fit. Perhatikan bahwa di σ 2 kita memiliki 1 / n bukan derajat-of-kebebasan familiar dikoreksi rasio 1 / ( n - p ) . Estimator ini diketahui bias dalam kasus sampel terbatas.X+ X r=y−Xβ^ σ^2 1/n 1/(n−p)
Sekarang anggaplah alih-alih mengoptimalkan lebih dari dan σ 2 , kami mengintegrasikan β keluar dan memperkirakan σβ σ2 β σ2 from the resulting integrated likelihood:
Using elementary linear algebra and the Gaussian integral formula, you can show that
This has the degrees-of-freedom correction which makes it unbiased and generally favored over the joint ML estimate.
Dari hasil ini orang mungkin bertanya apakah ada sesuatu yang secara inheren menguntungkan tentang kemungkinan terintegrasi, tetapi saya tidak tahu ada hasil umum yang menjawab pertanyaan itu. Tampaknya konsensus bahwa ML terintegrasi lebih baik dalam akuntansi untuk ketidakpastian dalam sebagian besar masalah estimasi. Khususnya, jika Anda memperkirakan kuantitas yang bergantung pada taksiran parameter lainnya (bahkan secara implisit), maka pengintegrasian atas parameter lainnya akan lebih memperhitungkan ketidakpastiannya.
sumber
This is usually not a matter of choice. If we are interested in the estimation ofβ (e.g. when β is a model hyperparameter and θ is a latent variable) and there is not a single value for θ and instead the distribution of θ in known, we need to integrate out θ . You can think of marginal likelihood as the weighted average of the likelihood for different values of θi weighted by their probability density p(θi) . Now that θ has disappeared, using training samples as data , you can optimize the marginal likelihood w.r.t. β .
sumber