Kita semua akrab dengan gagasan, didokumentasikan dengan baik dalam literatur, bahwa optimasi LASSO (demi kesederhanaan membatasi perhatian di sini untuk kasus regresi linier) setara dengan model linier dengan kesalahan Gaussian di mana parameter diberikan Laplace sebelumnya \ exp (- \ lambda \ | \ beta \ | _1) Kami juga menyadari bahwa semakin tinggi yang mengatur parameter penyetelan, \ lambda , semakin besar porsi parameter ditetapkan ke nol. Kata ini, saya memiliki pertanyaan pemikiran berikut:
Pertimbangkan bahwa dari sudut pandang Bayesian kita dapat menghitung probabilitas posterior bahwa, katakanlah, estimasi parameter bukan nol terletak pada kumpulan interval tertentu dan parameter yang disetel ke nol oleh LASSO sama dengan nol. Apa yang membuat saya bingung adalah, mengingat bahwa Laplace prior adalah kontinu (sebenarnya benar-benar kontinu) lalu bagaimana bisa ada massa pada set apa pun yang merupakan produk interval dan lajang di ?
sumber
Jawaban:
Seperti semua komentar di atas, interpretasi Bayesian tentang LASSO tidak mengambil nilai yang diharapkan dari distribusi posterior, yang adalah apa yang ingin Anda lakukan jika Anda seorang purist. Jika itu yang terjadi, maka Anda akan benar bahwa ada kemungkinan sangat kecil bahwa posterior akan menjadi nol mengingat data.
Pada kenyataannya, interpretasi Bayesian tentang LASSO mengambil penaksir MAP (Maximum A Posteriori) dari posterior. Kedengarannya seperti Anda terbiasa, tetapi bagi siapa pun yang tidak, ini pada dasarnya adalah Bayesian Maximum Likelihood, di mana Anda menggunakan nilai yang sesuai dengan probabilitas maksimum kejadian (atau mode) sebagai penduga Anda untuk parameter di LASSO. Karena distribusi meningkat secara eksponensial hingga nol dari arah negatif dan jatuh secara eksponensial ke arah positif, kecuali jika data Anda sangat menyarankan beta adalah beberapa nilai signifikan lainnya, nilai maksimum nilai posterior Anda kemungkinan adalah 0.
Singkat cerita, intuisi Anda tampaknya didasarkan pada rata-rata posterior, tetapi interpretasi Bayesian tentang LASSO didasarkan pada pengambilan mode posterior.
sumber