Mengapa Lasso menyediakan Seleksi Variabel?

76

Saya telah membaca Elemen Pembelajaran Statistik , dan saya ingin tahu mengapa Lasso menyediakan pemilihan variabel dan regresi ridge tidak.

Kedua metode meminimalkan jumlah residu kuadrat dan memiliki batasan pada nilai yang mungkin dari parameter β . Untuk Lasso, batasannya adalah ||β||1t , sedangkan untuk punggungan adalah ||β||2t , untuk beberapa t .

Saya telah melihat gambar berlian vs elips dalam buku ini dan saya memiliki intuisi mengapa Lasso dapat mengenai sudut-sudut wilayah terbatas, yang menyiratkan bahwa salah satu koefisien diatur ke nol. Namun, intuisi saya agak lemah, dan saya tidak yakin. Seharusnya mudah dilihat, tetapi saya tidak tahu mengapa ini benar.

Jadi saya kira saya sedang mencari pembenaran matematis, atau penjelasan intuitif mengapa kontur dari jumlah residu kuadrat cenderung mengenai sudut-sudut ||β||1 dibatasi wilayah (sedangkan situasi ini tidak mungkin jika kendala adalah ||β||2 ).

Zhi Zhao
sumber
Semua jawaban di bawah ini adalah penjelasan yang bagus. Tapi saya membuat artikel dengan representasi visual. Berikut ini adalah tautan media.com/@vamsi149/…
solver149

Jawaban:

70

y=βx+eβ^e^

minyTy2yTxβ^+β^xTxβ^+2λ|β^|

Mari kita asumsikan solusi kuadrat-terkecil adalah beberapa , yang setara dengan mengasumsikan bahwa , dan lihat apa yang terjadi ketika kita menambahkan penalti L1. Dengan , , jadi hukumannya sama dengan . Turunan dari fungsi objektif wrt adalah:β^>0yTx>0β^>0|β^|=β^2λββ^

2yTx+2xTxβ^+2λ

yang ternyata memiliki solusi . β^=(yTxλ)/(xTx)

Jelas dengan meningkatkan kita dapat mengarahkan ke nol (pada ). Namun, begitu , meningkatkan tidak akan membuatnya negatif, karena, dengan menulis dengan bebas, instan menjadi negatif, turunan dari fungsi tujuan berubah menjadi:λβ^λ=yTxβ^=0λβ^

2yTx+2xTxβ^2λ

di mana flip dalam tanda adalah karena sifat nilai absolut dari jangka waktu penalti; ketika menjadi negatif, istilah penalti menjadi sama dengan , dan mengambil turunan wrt menghasilkan . Ini mengarah ke solusi , yang jelas tidak konsisten dengan (mengingat bahwa solusi kuadrat terkecil , yang menyiratkan , danλβ2λββ2λβ^=(yTx+λ)/(xTx)β^<0>0yTx>0λ>0). Ada peningkatan penalti L1 DAN peningkatan dalam istilah kesalahan kuadrat (karena kami bergerak lebih jauh dari solusi kuadrat terkecil) ketika memindahkan dari ke , jadi kami tidak, kami hanya tetap di .β^0<0β^=0

Seharusnya jelas secara intuitif logika yang sama berlaku, dengan perubahan tanda yang sesuai, untuk solusi kuadrat terkecil dengan . β^<0

Namun, dengan penalti kuadrat terkecil , turunannya menjadi:λβ^2

2yTx+2xTxβ^+2λβ^

yang ternyata memiliki solusi . Jelas tidak ada peningkatan akan mendorong ini sampai nol. Jadi penalti L2 tidak dapat bertindak sebagai alat pemilihan variabel tanpa beberapa ad-hockery ringan seperti "set estimasi parameter sama dengan nol jika kurang dari ". β^=yTx/(xTx+λ)λϵ

Jelas hal-hal dapat berubah ketika Anda pindah ke model multivarian, misalnya, memindahkan satu estimasi parameter mungkin memaksa yang lain untuk mengubah tanda, tetapi prinsip umumnya sama: fungsi penalti L2 tidak dapat membuat Anda sampai nol, karena, menulis dengan sangat heuristik, efeknya menambah "penyebut" dari ekspresi untuk , tetapi fungsi penalti L1 dapat, karena efeknya menambah "pembilang". β^

Jbowman
sumber
Apakah Lasso juga menyediakan pemilihan fitur jika model non-linear, misalnya NN?
Ilya
Sebuah pertanyaan kecil tindak lanjut: Bagaimana bisa menjadi jika adalah vektor dan adalah skalar yang dapat kita variasikan untuk menemukan kecocokan? λ=yTxyTxλ
Jekaterina Kokatjuhha
Saya menggunakan contoh univariat, jadi adalah skalar. Jika Anda memecahkan masalah multivarian, maka dikalikan dengan vektor yang panjangnya = ukuran atau matriks identitas berukuran tepat, tergantung pada masalah mana yang sedang dipecahkan. Anda dapat mengatasinya dengan mencatat, misalnya, bahwa norma L2 dari = , dan membuat substitusi dalam formula di atas. yTxλβzzTIz
jbowman
Apakah mungkin untuk menunjukkan (secara matematis?) Bagaimana tanda lambda membalik karena sifat absolut dari fungsi penalti karena saya tidak dapat mengikuti sedikit logika ini.
user1420372
@ user1420372 - telah dilakukan; biarkan aku tahu apa yang kau pikirkan.
jbowman
9

Misalkan kita memiliki kumpulan data dengan y = 1 dan x = [1/10 1/10] (satu titik data, dua fitur). Salah satu solusinya adalah memilih salah satu fitur, fitur lainnya adalah mempertimbangkan kedua fitur. Yaitu kita bisa memilih w = [5 5] atau w = [10 0].

Perhatikan bahwa untuk norma L1 keduanya memiliki penalti yang sama, tetapi bobot yang lebih tersebar memiliki penalti yang lebih rendah untuk norma L2.

blarg
sumber
8

Saya pikir sudah ada jawaban yang bagus tetapi hanya untuk menambahkan beberapa intuisi mengenai interpretasi geometris:

"Laso melakukan penyusutan , sehingga ada" sudut "dalam kendala, yang dalam dua dimensi sesuai dengan berlian. Jika jumlah kotak" mengenai "salah satu sudut ini, maka koefisien yang sesuai dengan sumbu menyusut ke nol.L1

Dengan bertambahnya , berlian multidimensi memiliki jumlah sudut yang meningkat, sehingga sangat mungkin bahwa beberapa koefisien akan disetel sama dengan nol. Oleh karena itu, laso melakukan penyusutan dan pemilihan subset (efektif).p

Berbeda dengan pemilihan subset, ridge melakukan soft thresholding: karena parameter smoothing bervariasi, jalur sampel estimasi terus bergerak ke nol. "

Sumber: https://onlinecourses.science.psu.edu/stat857/book/export/html/137

Efeknya dapat divisualisasikan dengan baik di mana garis-garis berwarna adalah jalur koefisien regresi menyusut menuju nol.

masukkan deskripsi gambar di sini

"Regresi Ridge menyusutkan semua koefisien regresi ke nol; laso cenderung memberikan seperangkat koefisien regresi nol dan mengarah ke solusi yang jarang."

masukkan deskripsi gambar di sini

Sumber: https://onlinecourses.science.psu.edu/stat857/node/158

vonjd
sumber