Mengapa Laplace sebelumnya memproduksi solusi jarang?

22

Saya melihat-lihat literatur tentang regularisasi, dan sering melihat paragraf yang menghubungkan L2 regulatization dengan Gaussian sebelumnya, dan L1 dengan Laplace berpusat pada nol.

Saya tahu bagaimana rupa prior ini, tetapi saya tidak mengerti, bagaimana ini diterjemahkan menjadi, misalnya, bobot dalam model linier. Di L1, jika saya mengerti dengan benar, kami mengharapkan solusi yang jarang, yaitu beberapa bobot akan didorong ke nol. Dan di L2 kita mendapatkan bobot kecil tapi bukan bobot nol.

Tetapi mengapa itu terjadi?

Berikan komentar jika saya perlu memberikan informasi lebih lanjut atau memperjelas cara berpikir saya.

Dmitry Smirnov
sumber
1
Penjelasan intuitif yang sangat sederhana adalah bahwa penalti berkurang ketika menggunakan norma L2 tetapi tidak ketika menggunakan norma L1. Jadi, jika Anda dapat menjaga agar model bagian dari fungsi kerugian sama dengan dan Anda dapat melakukannya dengan mengurangi salah satu dari dua variabel, lebih baik mengurangi variabel dengan nilai absolut tinggi dalam kasus L2 tetapi tidak dalam kasus L1.
testuser

Jawaban:

21

Hubungan distribusi Laplace sebelum dengan median (atau norma L1) ditemukan oleh Laplace sendiri, yang menemukan bahwa menggunakan sebelum Anda memperkirakan median daripada rata-rata seperti dengan distribusi Normal (lihat Stingler, 1986 atau Wikipedia ). Ini berarti bahwa regresi dengan distribusi kesalahan Laplace memperkirakan median (seperti misalnya regresi kuantil), sedangkan kesalahan Normal merujuk pada estimasi OLS.

Priors kuat yang Anda tanyakan dijelaskan juga oleh Tibshirani (1996) yang memperhatikan bahwa regresi Lasso yang kuat dalam pengaturan Bayesian setara dengan menggunakan Laplace sebelumnya. Sebelumnya untuk koefisien dipusatkan di sekitar nol (dengan variabel terpusat) dan memiliki ekor yang luas - sehingga sebagian besar koefisien regresi yang diperkirakan menggunakannya akhirnya benar-benar nol. Ini jelas jika Anda melihat dekat pada gambar di bawah ini, distribusi Laplace memiliki puncak di sekitar nol (ada massa distribusi yang lebih besar), sedangkan distribusi normal lebih tersebar di sekitar nol, sehingga nilai-nilai non-nol memiliki massa probabilitas yang lebih besar. Kemungkinan lain untuk prior kuat adalah Cauchy atau distribusi .t

Dengan menggunakan prior seperti itu Anda lebih cenderung berakhir dengan banyak koefisien bernilai nol, beberapa berukuran sedang dan beberapa berukuran besar (ekor panjang), sedangkan dengan Normal sebelum Anda mendapatkan lebih banyak koefisien berukuran sedang yang agak tidak persis nol, tetapi juga tidak jauh dari nol.

masukkan deskripsi gambar di sini

(sumber gambar Tibshirani, 1996)


Stigler, SM (1986). Sejarah Statistik: Pengukuran Ketidakpastian Sebelum 1900. Cambridge, MA: Belknap Press dari Harvard University Press.

Tibshirani, R. (1996). Penyusutan regresi dan seleksi melalui laso. Jurnal Masyarakat Statistik Kerajaan. Seri B (Metodologi), 267-288.

Gelman, A., Jakulin, A., Pittau, GM, dan Su, Y.-S. (2008). Distribusi prior standar yang lemah untuk informasi logistik dan model regresi lainnya. The Annals of Applied Statistics, 2 (4), 1360-1383.

Norton, RM (1984). Distribusi Eksponensial Ganda: Menggunakan Kalkulus untuk Menemukan Pengukur Kemungkinan Maksimum. The American Statistician, 38 (2): 135-136.

Tim
sumber
Wow, ini adalah penjelasan yang sangat bagus, dan juga terima kasih khusus untuk pertanyaan terkait di mana norma-norma regularisasi secara intuitif terkait dengan mode, berarti dan berarti, ini benar-benar banyak menjelaskan bagi saya!
Dmitry Smirnov
1
@Tim, Distribusi Cauchy memiliki Ekor Berat namun probabilitas untuk Nol lebih kecil dari Distribusi Normal. Jadi bagaimana itu bisa menyebabkan solusi yang jarang?
Royi
4

Tampilan sering 👀

Di satu sisi, kita dapat menganggap kedua regularisasi sebagai "menyusut bobot" ; L2 meminimalkan norma Euclidean dari bobot, sedangkan L1 meminimalkan norma Manhattan. Mengikuti garis pemikiran ini, kita dapat beralasan bahwa ekuipotensial L1 dan L2 masing-masing berbentuk bola dan berlian, sehingga L1 lebih cenderung mengarah pada solusi yang jarang, seperti yang diilustrasikan dalam Pengenalan Pola Bishop dan Pembelajaran Mesin :

Bishop's * Pattern Recognition dan Machine Learning *

Tampilan Bayesian 👀

Namun, untuk memahami bagaimana prior berhubungan dengan model linier , kita perlu memahami interpretasi Bayes tentang regresi linier biasa . Blogpost Katherine Bailey adalah bacaan yang sangat baik untuk ini. Singkatnya, kami mengasumsikan kesalahan iid yang didistribusikan secara normal dalam model linier kami

y=θX+ϵ

Nysaya,saya=1,2,...,NϵkN(0,σ)

y

hal(y|X,θ;ϵ)=N(θX,σ)

Ternyata ... Estimator kemungkinan maksimum identik dengan meminimalkan kesalahan kuadrat antara nilai output yang diprediksi dan yang sebenarnya berdasarkan asumsi normalitas untuk kesalahan tersebut.

θ^MLE=argmaksθlogP(y|θ)=argminθsaya=1n(ysaya-θxsaya)2

Regularisasi sebagai menempatkan prior pada bobot

Jika kita menempatkan non-seragam sebelum pada bobot regresi linier, estimasi probabilitas a posteriori (MAP) maksimum adalah:

θ^PETA=argmaksθlogP(y|θ)+logP(θ)

P(θ)θ

P(θ)θ

Laplace vs Gaussian

Sekarang kami memiliki pandangan lain tentang mengapa menempatkan Laplace di atas bobot lebih cenderung menyebabkan sparsity: karena distribusi Laplace lebih terkonsentrasi di sekitar nol , bobot kami lebih cenderung menjadi nol.

Christabella Irwanto
sumber