Regulator L2 setara dengan Gaussian Prior

56

Saya terus membaca ini dan secara intuitif saya bisa melihat ini, tetapi bagaimana orang beralih dari regularisasi L2 ke mengatakan bahwa ini adalah Gaussian Prior secara analitik? Hal yang sama berlaku untuk mengatakan L1 setara dengan Laplacean sebelumnya.

Referensi lebih lanjut akan bagus.

Anonim, tanpa nama
sumber

Jawaban:

54

Mari kita bayangkan bahwa Anda ingin menyimpulkan beberapa parameter dari beberapa pasangan input-output yang diamati . Mari kita asumsikan bahwa output terkait secara linear dengan input melalui dan bahwa data rusak oleh beberapa noise :β(x1,y1),(xN,yN)βϵ

yn=βxn+ϵ,

di mana adalah Gaussian noise dengan rata-rata dan varians . Ini memunculkan kemungkinan Gaussian:ϵ0σ2

n=1NN(yn|βxn,σ2).

Mari kita mengatur parameter dengan memaksakan Gaussian prior mana adalah skalar yang benar-benar positif. Oleh karena itu, menggabungkan kemungkinan dan sebelumnya kita hanya memiliki:βN(β|0,λ1),λ

n=1NN(yn|βxn,σ2)N(β|0,λ1).

Mari kita ambil logaritma dari ungkapan di atas. Menjatuhkan konstanta kita dapatkan:

n=1N1σ2(ynβxn)2λβ2+const.

Jika kita memaksimalkan ekspresi di atas sehubungan dengan , kita mendapatkan perkiraan a-posteriori maksimum untuk , atau estimasi MAP untuk pendek. Dalam ungkapan ini menjadi jelas mengapa Gaussian prior dapat diartikan sebagai istilah regularisasi L2.ββ


Demikian pula hubungan antara norma L1 dan Laplace sebelumnya dapat dipahami dengan cara yang sama. Ambil alih-alih Gaussian prior, Laplace prior menggabungkannya dengan kemungkinan Anda dan ambil logaritma.

Referensi yang bagus (mungkin sedikit maju) yang merinci kedua masalah ini adalah makalah "Adarsive Sparseness for Supervised Learning", yang saat ini tampaknya tidak mudah ditemukan secara online. Atau lihat "Adaptive Sparseness using Jeffreys Prior" . Referensi lain yang bagus adalah "Klasifikasi On Bayesian dengan prior Laplace" .

ngiann
sumber
1
Dalam D dimensionkasus regresi linier, dapat betadan sigmamemiliki solusi eksplisit? Saya membaca PRML, dan menemukan persamaan (1.67) di halaman 30 dan tidak tahu bagaimana menyelesaikannya. Dalam kemungkinan maksimum, kami memecahkan betadan kemudian sigmadengan mengatur gradien ke nol. Dalam kuadrat terkecil yang diatur, sejak param reqularisasi lambdadiketahui, kami menyelesaikannya betasecara langsung. Tetapi jika kita langsung memecahkan MAP, apa urutan pemecahan beta, sigma? Bisakah mereka memiliki solusi eksplisit atau kita harus menggunakan proses berulang?
stackunderflow
Apakah Anda melewatkan "kotak" pada dalam persamaan terakhir yaitu ? λβλβ2
brian.keng
@AdamO Ini membatasi jumlah nilai yang dapat diambil koefisien. Jika prior adalah antara 1-10 misalnya, maka ada probabilitas 0 koefisien mengambil nilai lain yaitu, [-inf to 1] dan [10, + inf].
imsrgadich
1
Dalam hal ini diketahui. Apakah itu berfungsi ketika tidak diketahui? Untuk regresi linear Bayesian, gamma invers prior dapat digunakan untuk membentuk konjugat sebelum varians. Tapi saya tidak yakin aljabar akan berjumlah ekspresi yang sama. σ2σ2
AdamO
11

Untuk model linear dengan kemungkinan normal multivariate normal dan multivariat normal, Anda berakhir dengan distribusi posterior normal multivariat di mana rata-rata posterior (dan maksimum model posteriori) adalah persis apa yang akan Anda peroleh dengan menggunakan Tikhonov regularized ( regularisasi) kuadrat terkecil dengan parameter regularisasi yang sesuai. L2

Perhatikan bahwa ada perbedaan yang lebih mendasar yaitu posterior Bayesian merupakan distribusi probabilitas, sedangkan solusi kuadrat terkecil yang diregulasi Tikhonov adalah estimasi titik tertentu.

Ini dibahas dalam banyak buku tentang metode Bayesian untuk masalah terbalik, Lihat misalnya:

http://www.amazon.com/Inverse-Problem-Methods-Parameter-Estimation/dp/0898715725/

http://www.amazon.com/Parameter-Estimation-Inverse-Problems-Second/dp/0123850487/

Demikian pula, jika Anda memiliki kemungkinan Laplacian prior dan multivariate normal, maka maksimum distribusi posterior terjadi pada titik yang bisa Anda peroleh dengan memecahkan masalah kuadrat terkecil yang diatur oleh . L1

Brian Borchers
sumber
9

Pemberitahuan pertama bahwa median meminimalkan norma L1 (lihat di sini atau di sini untuk mempelajari lebih lanjut tentang L1 dan L2)

median(x)=argminsi|xis|1

sementara mean meminimalkan L2

mean(x)=argminsi|xis|2

sekarang, ingat bahwa parameter distribusi Normal dapat diperkirakan menggunakan mean sampel , sedangkan estimator MLE untuk parameter distribusi Laplace adalah median. Jadi menggunakan distribusi Normal setara dengan optimasi norma L2 dan menggunakan distribusi Laplace, untuk menggunakan optimasi L1. Dalam praktiknya Anda bisa menganggapnya sebagai median yang kurang sensitif terhadap outlier daripada rata-rata, dan sama, menggunakan distribusi Laplace yang lebih gemuk sebagai prior membuat model Anda lebih rentan terhadap outlier, daripada menggunakan distribusi Normal.μμ


Hurley, WJ (2009) Suatu Pendekatan Induktif untuk Menghitung MLE untuk Distribusi Eksponensial Ganda . Jurnal Metode Statistik Terapan Modern: 8 (2), Pasal 25.

Tim
sumber
Mungkin ini bukan jawaban yang paling ketat secara matematis yang diberikan di sini, tapi ini jelas yang paling mudah, paling intuitif untuk pemula dalam regularisasi L1 / L2 untuk dipahami.
SQLServerSteve
8

Untuk masalah regresi dengan variabel (tanpa intersepsi), Anda melakukan OLSk

minβ(yXβ)(yXβ)

Dalam regresi yang diatur dengan penalti Anda lakukanLp

minβ(yXβ)(yXβ)+λi=1k|βi|p

Kita bisa melakukan hal yang sama (perhatikan tanda perubahan)

maxβ(yXβ)(yXβ)λi=1k|βi|p

Ini secara langsung berkaitan dengan prinsip Bayesian

posteriorlikelihood×prior

atau setara (dalam kondisi keteraturan)

log(posterior)log(likelihood)+log(penalty)

Sekarang tidak sulit untuk melihat distribusi keluarga eksponensial mana yang sesuai dengan jenis hukuman apa.

Georg M. Goerg
sumber
3

Untuk menempatkan kesetaraan lebih tepat:

Mengoptimalkan bobot model untuk meminimalkan fungsi kerugian kesalahan kuadrat dengan regularisasi L2 setara dengan menemukan bobot yang paling mungkin di bawah distribusi posterior yang dievaluasi menggunakan aturan Bayes, dengan bobot Gaussian independen rata-rata nol sebelum

Bukti:

Fungsi kerugian seperti dijelaskan di atas akan diberikan oleh

L=[n=1N(y(n)fw(x(n)))2]Originallossfunction+λi=1Kwi2L2loss

Perhatikan bahwa distribusi untuk Gaussian multivarian adalah

N(x;μ,Σ)=1(2π)D/2|Σ|1/2exp(12(xμ)Σ1(xμ))

Menggunakan aturan Bayes, kita memilikinya

p(w|D)=p(D|w)p(w)p(D)p(D|w)p(w)[nNN(y(n);fw(x(n)),σy2)]N(w;0,σw2I)nNN(y(n);fw(x(n)),σy2)i=1KN(wi;0,σw2)

Di mana kita dapat membagi Guassian multi-dimensi menjadi produk, karena kovarians adalah kelipatan dari matriks identitas.

Ambil probabilitas log negatif

log[p(w|D)]=n=1Nlog[N(y(n);fw(x(n)),σy2)]i=1Klog[N(wi;0,σw2)]+const.=12σy2n=1N(y(n)fw(x(n)))2+12σw2i=1Kwi2+const.

Tentu saja kita dapat menghilangkan konstanta, dan mengalikannya dengan jumlah berapa pun tanpa secara fundamental memengaruhi fungsi kerugian. (konstan tidak melakukan apa-apa, perkalian secara efektif menskalakan tingkat pembelajaran. Tidak akan mempengaruhi lokasi minima) Jadi kita dapat melihat bahwa probabilitas log negatif dari distribusi posterior adalah fungsi kerugian setara dengan fungsi kehilangan kesalahan kuadrat teregulasi L2 yang diatur.

Ekuivalensi ini bersifat umum dan berlaku untuk fungsi bobot parameter apa pun - bukan hanya regresi linier seperti yang tampaknya tersirat di atas.

nickelnine37
sumber
1

Ada dua karakteristik pemodelan Bayesian yang perlu ditekankan, ketika membahas kesetaraan estimasi kemungkinan maksimum tertentu yang dihukum dan prosedur Bayesian.

  1. Dalam kerangka Bayesian, prior dipilih berdasarkan spesifik masalah dan tidak termotivasi oleh kemanfaatan komputasi. Oleh karena itu, Bayesian menggunakan berbagai prior termasuk tapal kuda yang sekarang populer sebelum masalah prediktor jarang, dan tidak perlu terlalu bergantung pada prior yang setara dengan hukuman L1 atau L2.
  2. Dengan pendekatan Bayesian lengkap, Anda memiliki akses ke semua prosedur inferensial setelah selesai. Misalnya Anda dapat mengukur bukti untuk koefisien regresi besar dan Anda bisa mendapatkan interval kredibel pada koefisien regresi dan nilai prediksi keseluruhan. Dalam kerangka kerja frequentist, setelah Anda memilih hukuman Anda kehilangan semua mesin inferensial.
Frank Harrell
sumber