Model regresi linier sederhana
yi=α+βxi+ε
dapat ditulis dalam bentuk model probabilistik di belakangnya
μi=α+βxiyi∼N(μi,σ)
yaitu variabel dependen mengikuti distribusi normal yang diparameterisasi dengan rata-rata μ i , yaitu fungsi linier X yang diparameterisasi oleh α , β , dan dengan standar deviasi σ . Jika Anda memperkirakan model seperti itu menggunakan kuadrat terkecil biasa , Anda tidak perlu repot dengan formulasi probabilistik, karena Anda mencari nilai optimal parameter α , β dengan meminimalkan kesalahan kuadrat dari nilai yang dipasang ke nilai yang diprediksi. Di sisi lain, Anda bisa memperkirakan model seperti itu menggunakan estimasi kemungkinan maksimumYμiXα,βσα,β, di mana Anda akan mencari nilai parameter optimal dengan memaksimalkan fungsi kemungkinan
argmaxα,β,σ∏i=1nN(yi;α+βxi,σ)
di mana adalah fungsi densitas distribusi normal dievaluasi pada y i poin, parametrized dengan cara α + β x i dan standar deviasi σ .Nyiα+βxiσ
Dalam pendekatan Bayesian alih-alih memaksimalkan fungsi kemungkinan saja, kita akan mengasumsikan distribusi sebelumnya untuk parameter dan menggunakan teorema Bayes
posterior∝likelihood×prior
α,β,σ
f(α,β,σ∣Y,X)posterior∝∏i=1nN(yi∣α+βxi,σ)likelihoodfα(α)fβ(β)fσ(σ)priors
α,βtσ
(sumber: http://www.indiana.edu/~kruschke/BMLR/ )
Sementara di kemungkinan maksimum Anda sedang mencari nilai optimal tunggal untuk masing-masing parameter, dalam pendekatan Bayesian dengan menerapkan teorema Bayes Anda mendapatkan posterior distribusi parameter. Estimasi akhir akan tergantung pada informasi yang berasal dari data Anda dan dari prior Anda , tetapi semakin banyak informasi terkandung dalam data Anda, semakin sedikit berpengaruh adalah prior .
f(θ)∝1
Untuk memperkirakan model dalam pendekatan Bayesian dalam beberapa kasus, Anda dapat menggunakan prior konjugat , sehingga distribusi posterior tersedia secara langsung (lihat contoh di sini ). Namun dalam sebagian besar kasus distribusi posterior tidak akan tersedia secara langsung dan Anda harus menggunakan metode Markov Chain Monte Carlo untuk memperkirakan model (lihat contoh ini menggunakan algoritma Metropolis-Hastings untuk memperkirakan parameter regresi linier). Akhirnya, jika Anda hanya tertarik pada estimasi titik parameter, Anda bisa menggunakan estimasi posteriori maksimum , yaitu
argmaxα,β,σf(α,β,σ∣Y,X)
Untuk deskripsi yang lebih rinci tentang regresi logistik Anda dapat memeriksa model logit Bayesian - penjelasan intuitif? benang.
Untuk mempelajari lebih lanjut, Anda dapat memeriksa buku-buku berikut:
Kruschke, J. (2014). Melakukan Analisis Data Bayesian: Tutorial dengan R, JAGS, dan Stan. Pers Akademik.
Gelman, A., Carlin, JB, Stern, HS, dan Rubin, DB (2004).
Analisis data Bayesian. Chapman & Hall / CRC.
Setelah banyak perhitungan kami menemukan itu
Untuk distribusi posterior prediktif:
adalah mungkin untuk menghitungnya
Referensi: Lunn et al. Buku BUGS
Untuk menggunakan alat MCMC seperti JAGS / Stan, periksa Analisis Data Doing Bayesian dari Kruschke
sumber