Saya mencoba memahami bagaimana algoritma Lars dapat dimodifikasi untuk menghasilkan Lasso. Meskipun saya mengerti LARS, saya tidak dapat melihat modifikasi Lasso dari kertas oleh Tibshirani et al. Khususnya saya tidak melihat mengapa kondisi tanda bahwa tanda koordinat non-nol harus setuju dengan tanda korelasi saat ini. Dapatkah seseorang tolong bantu saya dengan ini. Saya kira saya sedang mencari bukti matematika menggunakan kondisi KKT pada masalah norma L-1 asli yaitu Lasso. Terimakasih banyak!
12
Jawaban:
Misalkan (ukuran ) menunjukkan satu set input terstandarisasi, (ukuran ) respons terpusat, (ukuran ) bobot regresi dan a -tidak ada koefisien penalti.n × p y n × 1 β p × 1 λ > 0 l 1X n×p y n×1 β p×1 λ>0 l1
Masalah LASSO kemudian menulis
Memecahkan ini untuk semua nilai menghasilkan apa yang disebut jalur regularisasi LASSO .β ∗ ( λ )λ>0 β∗(λ)
Untuk nilai tetap dari koefisien penalti (yaitu jumlah tetap dari prediktor aktif = langkah tetap dari algoritma LARS), dimungkinkan untuk menunjukkan bahwa memenuhi (cukup tulis kondisi stationaritas KKT seperti dalam hal ini jawaban )β ∗λ∗ β∗
dengan mewakili sekumpulan prediktor aktif.A
Karena harus positif (ini adalah koefisien hukuman), jelas bahwa tanda (bobot bukan nol maka prediktor aktif) harus sama dengan yaitu korelasi dengan sisa regresi saat ini.β ∗ a X T a ( y - X β ∗ ) = X T a rλ∗ β∗a XTa(y−Xβ∗)=XTar
sumber
@ Mr._White memberikan penjelasan intuitif tentang perbedaan besar antara LARS dan Lasso; satu-satunya poin yang akan saya tambahkan adalah bahwa laso adalah (semacam) seperti pendekatan seleksi mundur, merobohkan suatu istilah pada setiap langkah selama ada istilah untuk yang mana dari mereka ("dinormalisasi" selama ) ada korelasi. LARS menyimpan semuanya di sana - pada dasarnya melakukan laso dalam setiap urutan yang memungkinkan. Itu berarti bahwa dalam laso, setiap iterasi tergantung pada istilah mana yang telah dihapus.X×X
Implementasi Effron menggambarkan perbedaan yang sangat baik: lars . R dalam pkg sumber untuk lars . Perhatikan langkah pembaruan matriks matriks dan mulai dari baris 180, dan menjatuhkan istilah yang . Saya bisa membayangkan beberapa situasi aneh yang muncul dari spasi mana istilahnya tidak seimbang ( dan sangat berkorelasi tetapi tidak dengan yang lain, dengan tetapi tidak dengan yang lain, dll.) Urutan seleksi bisa sangat bias.ζ ζ m i n < ζ c u r r e n t A x 1 x 2 x 2 x 3X×X ζ ζmin<ζcurrent A x1 x2 x2 x3
sumber