Salah satu motivasi untuk jaring elastis adalah batasan LASSO sebagai berikut:
Dalam kasus , laso memilih paling banyak n variabel sebelum jenuh, karena sifat masalah optimisasi cembung. Ini tampaknya menjadi fitur pembatas untuk metode pemilihan variabel. Selain itu, laso tidak didefinisikan dengan baik kecuali jika terikat pada norma L1 dari koefisien lebih kecil dari nilai tertentu.
( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )
Saya mengerti bahwa LASSO adalah masalah pemrograman kuadratik tetapi juga dapat diselesaikan melalui LARS atau elemen-gradient descent. Tapi saya tidak mengerti di mana dalam algoritma ini saya menemukan masalah jika mana p adalah jumlah prediktor dan n adalah ukuran sampel. Dan mengapa masalah ini diselesaikan dengan menggunakan jaring elastis di mana saya menambah masalah ke p + n variabel yang jelas melebihi p .
sumber
Jawaban:
Seperti yang dikatakan, ini bukan properti dari algoritma tetapi dari masalah optimisasi. Kondisi KKT pada dasarnya memberikan bahwa untuk koefisien menjadi nol, itu harus sesuai dengan korelasi tetap dengan residual | X t j ( y - X β ) | = λ ( λ adalah parameter regularisasi).βj |Xtj(y−Xβ)|=λ λ
Setelah menyelesaikan berbagai komplikasi dengan nilai absolut dll, Anda dibiarkan dengan persamaan linear untuk setiap koefisien yang tidak nol. Karena pangkat matriks paling banyak n ketika p > n , ini adalah jumlah persamaan yang dapat diselesaikan, dan oleh karena itu ada paling banyak n non-nol (kecuali ada redundansi).X n p>n
Ngomong-ngomong, ini berlaku untuk fungsi kerugian, tidak hanya laso standar dengan kehilangan . Jadi itu sebenarnya milik penalti laso. Ada banyak makalah yang menunjukkan pandangan KKT ini dan kesimpulan yang dihasilkan, saya bisa tunjukkan pada makalah kami: Rosset dan Zhu, Jalur Solusi Regulatoris Linear Piecewise, Annals of Stats 2007 dan referensi di dalamnya.L2
sumber
Penjelasan lain adalah sebagai berikut: jika , pangkat matriks data X paling banyak n , jadi dimensi ruang nolnya (kanan) setidaknya p - n . Tulis vektor apa pun dalam ruang nol ini sebagai z . Kemudian pada setiap titik yang layak β , seseorang selalu dapat bergerak dalam ruang nol p - n- dimensional menuju sumbu koordinat ruang ambien p- dimensi, untuk sampai pada β + z , di mana (paling banyak) nn<p X n p−n z β p−n p β+z n s adalah bukan nol, dan fungsi tujuan LASSOβj
telah menurun.
sumber