Mari kita bayangkan bahwa Anda ingin menyimpulkan beberapa parameter dari beberapa pasangan input-output yang diamati . Mari kita asumsikan bahwa output terkait secara linear dengan input melalui dan bahwa data rusak oleh beberapa noise :β(x1,y1)…,(xN,yN)βϵ
yn=βxn+ϵ,
di mana adalah Gaussian noise dengan rata-rata dan varians . Ini memunculkan kemungkinan Gaussian:ϵ0σ2
∏n=1NN(yn|βxn,σ2).
Mari kita mengatur parameter dengan memaksakan Gaussian prior mana adalah skalar yang benar-benar positif. Oleh karena itu, menggabungkan kemungkinan dan sebelumnya kita hanya memiliki:βN(β|0,λ−1),λ
∏n=1NN(yn|βxn,σ2)N(β|0,λ−1).
Mari kita ambil logaritma dari ungkapan di atas. Menjatuhkan konstanta kita dapatkan:
∑n=1N−1σ2(yn−βxn)2−λβ2+const.
Jika kita memaksimalkan ekspresi di atas sehubungan dengan , kita mendapatkan perkiraan a-posteriori maksimum untuk , atau estimasi MAP untuk pendek. Dalam ungkapan ini menjadi jelas mengapa Gaussian prior dapat diartikan sebagai istilah regularisasi L2.ββ
Demikian pula hubungan antara norma L1 dan Laplace sebelumnya dapat dipahami dengan cara yang sama. Ambil alih-alih Gaussian prior, Laplace prior menggabungkannya dengan kemungkinan Anda dan ambil logaritma.
Referensi yang bagus (mungkin sedikit maju) yang merinci kedua masalah ini adalah makalah "Adarsive Sparseness for Supervised Learning", yang saat ini tampaknya tidak mudah ditemukan secara online. Atau lihat "Adaptive Sparseness using Jeffreys Prior" . Referensi lain yang bagus adalah "Klasifikasi On Bayesian dengan prior Laplace" .
D dimension
kasus regresi linier, dapatbeta
dansigma
memiliki solusi eksplisit? Saya membaca PRML, dan menemukan persamaan (1.67) di halaman 30 dan tidak tahu bagaimana menyelesaikannya. Dalam kemungkinan maksimum, kami memecahkanbeta
dan kemudiansigma
dengan mengatur gradien ke nol. Dalam kuadrat terkecil yang diatur, sejak param reqularisasilambda
diketahui, kami menyelesaikannyabeta
secara langsung. Tetapi jika kita langsung memecahkan MAP, apa urutan pemecahanbeta
,sigma
? Bisakah mereka memiliki solusi eksplisit atau kita harus menggunakan proses berulang?Untuk model linear dengan kemungkinan normal multivariate normal dan multivariat normal, Anda berakhir dengan distribusi posterior normal multivariat di mana rata-rata posterior (dan maksimum model posteriori) adalah persis apa yang akan Anda peroleh dengan menggunakan Tikhonov regularized ( regularisasi) kuadrat terkecil dengan parameter regularisasi yang sesuai.L2
Perhatikan bahwa ada perbedaan yang lebih mendasar yaitu posterior Bayesian merupakan distribusi probabilitas, sedangkan solusi kuadrat terkecil yang diregulasi Tikhonov adalah estimasi titik tertentu.
Ini dibahas dalam banyak buku tentang metode Bayesian untuk masalah terbalik, Lihat misalnya:
http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/
http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/
Demikian pula, jika Anda memiliki kemungkinan Laplacian prior dan multivariate normal, maka maksimum distribusi posterior terjadi pada titik yang bisa Anda peroleh dengan memecahkan masalah kuadrat terkecil yang diatur oleh .L1
sumber
Pemberitahuan pertama bahwa median meminimalkan norma L1 (lihat di sini atau di sini untuk mempelajari lebih lanjut tentang L1 dan L2)
sementara mean meminimalkan L2
sekarang, ingat bahwa parameter distribusi Normal dapat diperkirakan menggunakan mean sampel , sedangkan estimator MLE untuk parameter distribusi Laplace adalah median. Jadi menggunakan distribusi Normal setara dengan optimasi norma L2 dan menggunakan distribusi Laplace, untuk menggunakan optimasi L1. Dalam praktiknya Anda bisa menganggapnya sebagai median yang kurang sensitif terhadap outlier daripada rata-rata, dan sama, menggunakan distribusi Laplace yang lebih gemuk sebagai prior membuat model Anda lebih rentan terhadap outlier, daripada menggunakan distribusi Normal.μ μ
Hurley, WJ (2009) Suatu Pendekatan Induktif untuk Menghitung MLE untuk Distribusi Eksponensial Ganda . Jurnal Metode Statistik Terapan Modern: 8 (2), Pasal 25.
sumber
Untuk masalah regresi dengan variabel (tanpa intersepsi), Anda melakukan OLSk
Dalam regresi yang diatur dengan penalti Anda lakukanLp
Kita bisa melakukan hal yang sama (perhatikan tanda perubahan)
Ini secara langsung berkaitan dengan prinsip Bayesian
atau setara (dalam kondisi keteraturan)
Sekarang tidak sulit untuk melihat distribusi keluarga eksponensial mana yang sesuai dengan jenis hukuman apa.
sumber
Untuk menempatkan kesetaraan lebih tepat:
Mengoptimalkan bobot model untuk meminimalkan fungsi kerugian kesalahan kuadrat dengan regularisasi L2 setara dengan menemukan bobot yang paling mungkin di bawah distribusi posterior yang dievaluasi menggunakan aturan Bayes, dengan bobot Gaussian independen rata-rata nol sebelum
Bukti:
Fungsi kerugian seperti dijelaskan di atas akan diberikan oleh
Perhatikan bahwa distribusi untuk Gaussian multivarian adalahN(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(−12(x−μ)⊤Σ−1(x−μ))
Menggunakan aturan Bayes, kita memilikinya
Di mana kita dapat membagi Guassian multi-dimensi menjadi produk, karena kovarians adalah kelipatan dari matriks identitas.
Ambil probabilitas log negatif−log[p(w|D)]=−∑n=1Nlog[N(y(n);fw(x(n)),σ2y)]−∑i=1Klog[N(wi;0,σ2w)]+const.=12σ2y∑n=1N(y(n)−fw(x(n)))2+12σ2w∑i=1Kw2i+const.
Tentu saja kita dapat menghilangkan konstanta, dan mengalikannya dengan jumlah berapa pun tanpa secara fundamental memengaruhi fungsi kerugian. (konstan tidak melakukan apa-apa, perkalian secara efektif menskalakan tingkat pembelajaran. Tidak akan mempengaruhi lokasi minima) Jadi kita dapat melihat bahwa probabilitas log negatif dari distribusi posterior adalah fungsi kerugian setara dengan fungsi kehilangan kesalahan kuadrat teregulasi L2 yang diatur.
Ekuivalensi ini bersifat umum dan berlaku untuk fungsi bobot parameter apa pun - bukan hanya regresi linier seperti yang tampaknya tersirat di atas.
sumber
Ada dua karakteristik pemodelan Bayesian yang perlu ditekankan, ketika membahas kesetaraan estimasi kemungkinan maksimum tertentu yang dihukum dan prosedur Bayesian.
sumber