Modifikasi Lasso untuk LARS

12

Saya mencoba memahami bagaimana algoritma Lars dapat dimodifikasi untuk menghasilkan Lasso. Meskipun saya mengerti LARS, saya tidak dapat melihat modifikasi Lasso dari kertas oleh Tibshirani et al. Khususnya saya tidak melihat mengapa kondisi tanda bahwa tanda koordinat non-nol harus setuju dengan tanda korelasi saat ini. Dapatkah seseorang tolong bantu saya dengan ini. Saya kira saya sedang mencari bukti matematika menggunakan kondisi KKT pada masalah norma L-1 asli yaitu Lasso. Terimakasih banyak!

pemula
sumber
Apakah Anda mengacu pada stanford.edu Efron et al / ~ hastie/Papers/LARS/LeastAngle_2002.pdf ? Itu membuktikan hal ini dalam Lemma 8 bagian 5. Atau apakah saya salah memahami pertanyaan Anda?
Peter Ellis
1
Saya juga tidak yakin tentang pertanyaan itu, tetapi sebenarnya, Lasso adalah penyederhanaan Lars: Untuk Lasso, Anda hanya mencari korelasi positif antara fungsi sisa dan basis saat ini, karena hanya korelasi positif yang mengarah ke positif (~ non-negatif) koefisien.
Tn. White

Jawaban:

2

Misalkan (ukuran ) menunjukkan satu set input terstandarisasi, (ukuran ) respons terpusat, (ukuran ) bobot regresi dan a -tidak ada koefisien penalti.n × p y n × 1 β p × 1 λ > 0 l 1Xn×pyn×1βp×1λ>0l1

Masalah LASSO kemudian menulis

β=argminβ L(β,λ)L(β,λ)=yXβ22+λβ1

Memecahkan ini untuk semua nilai menghasilkan apa yang disebut jalur regularisasi LASSO .β ( λ )λ>0β(λ)

Untuk nilai tetap dari koefisien penalti (yaitu jumlah tetap dari prediktor aktif = langkah tetap dari algoritma LARS), dimungkinkan untuk menunjukkan bahwa memenuhi (cukup tulis kondisi stationaritas KKT seperti dalam hal ini jawaban )β λβ

λ=2 sign(βa)XaT(yXβ),   aA

dengan mewakili sekumpulan prediktor aktif.A

Karena harus positif (ini adalah koefisien hukuman), jelas bahwa tanda (bobot bukan nol maka prediktor aktif) harus sama dengan yaitu korelasi dengan sisa regresi saat ini.β a X T a ( y - X β ) = X T a rλβaXaT(yXβ)=XaTr

Jumlah
sumber
1

@ Mr._White memberikan penjelasan intuitif tentang perbedaan besar antara LARS dan Lasso; satu-satunya poin yang akan saya tambahkan adalah bahwa laso adalah (semacam) seperti pendekatan seleksi mundur, merobohkan suatu istilah pada setiap langkah selama ada istilah untuk yang mana dari mereka ("dinormalisasi" selama ) ada korelasi. LARS menyimpan semuanya di sana - pada dasarnya melakukan laso dalam setiap urutan yang memungkinkan. Itu berarti bahwa dalam laso, setiap iterasi tergantung pada istilah mana yang telah dihapus. X×X

Implementasi Effron menggambarkan perbedaan yang sangat baik: lars . R dalam pkg sumber untuk lars . Perhatikan langkah pembaruan matriks matriks dan mulai dari baris 180, dan menjatuhkan istilah yang . Saya bisa membayangkan beberapa situasi aneh yang muncul dari spasi mana istilahnya tidak seimbang ( dan sangat berkorelasi tetapi tidak dengan yang lain, dengan tetapi tidak dengan yang lain, dll.) Urutan seleksi bisa sangat bias.ζ ζ m i n < ζ c u r r e n t A x 1 x 2 x 2 x 3X×Xζζmin<ζcurrentAx1x2x2x3

egbutter
sumber