Jika p> n, laso memilih paling banyak n variabel

13

Salah satu motivasi untuk jaring elastis adalah batasan LASSO sebagai berikut:

Dalam kasus p>n , laso memilih paling banyak n variabel sebelum jenuh, karena sifat masalah optimisasi cembung. Ini tampaknya menjadi fitur pembatas untuk metode pemilihan variabel. Selain itu, laso tidak didefinisikan dengan baik kecuali jika terikat pada norma L1 dari koefisien lebih kecil dari nilai tertentu.

( http://onlinelibrary.wiley.com/doi/10.1111/j.1467-9868.2005.00503.x/full )

Saya mengerti bahwa LASSO adalah masalah pemrograman kuadratik tetapi juga dapat diselesaikan melalui LARS atau elemen-gradient descent. Tapi saya tidak mengerti di mana dalam algoritma ini saya menemukan masalah jika mana p adalah jumlah prediktor dan n adalah ukuran sampel. Dan mengapa masalah ini diselesaikan dengan menggunakan jaring elastis di mana saya menambah masalah ke p + n variabel yang jelas melebihi p .p>npnp+np

pengguna1137731
sumber
2
Jika laso membatasi digunakan untuk menjaga p <= n mengapa itu merupakan kelemahan daripada kebajikan. overfitting adalah masalah serius yang muncul ketika p = n. Model dengan p = n adalah model jenuh dan sering model itu overfits karena akan cocok dengan data yang diamati dengan sempurna tetapi tidak selalu mempengaruhi kasus di masa depan dengan baik.
Michael R. Chernick
3
Bahwa laso hanya memilih hingga variabel dapat dilihat sebagai konsekuensi dari fakta bahwa ia dapat diselesaikan dengan menggunakan (sedikit modifikasi) algoritma LARS, yang hanya menerima hingga n variabel ke set aktif pada satu waktu. Bahwa hal ini tidak berlaku pada kasus jaring elastis pada dasarnya mengikuti penggabungan penalti 2 dan berperilaku lebih seperti regresi ridge, yang terakhir yang biasanya menghasilkan semua koefisien menjadi nol. nn2
kardinal
Terima kasih atas jawabannya, dan bagaimana saya akan melihat gradient descent yang paling banyak n variabel dapat dipilih: Presentasi di cs.cmu.edu/afs/cs/project/link-3/lafferty/www/ml-stat2/talks/ ... Kertas (bagian 4) di datamining.dongguk.ac.kr/papers/GLASSO_JRSSB_V1.final.pdf
user1137731
3
@ Pengguna: Saya pikir Anda mungkin mengacaukan masalah matematika dengan solusi numeriknya. Algoritma LARS menunjukkan bahwa solusi laso akan memilih paling banyak variabel. Ini tidak tergantung pada cara numerik aktual untuk sampai pada solusi, yaitu, algoritma LARS memberikan wawasan tentang masalah, tetapi tentu saja metode lain yang secara setara memecahkan masalah harus memiliki properti yang sama! :-)n
kardinal
Pertimbangkan fitur yang digandakan kali. Akan ada estimator laso dengan tepat p nonzeroes (bahkan jika p > n ) Oleh karena itu pernyataan Anda tidak benar seperti yang tertulis. ppp>n
user795305

Jawaban:

10

Seperti yang dikatakan, ini bukan properti dari algoritma tetapi dari masalah optimisasi. Kondisi KKT pada dasarnya memberikan bahwa untuk koefisien menjadi nol, itu harus sesuai dengan korelasi tetap dengan residual | X t j ( y - X β ) | = λ ( λ adalah parameter regularisasi).βj|Xjt(yXβ)|=λλ

Setelah menyelesaikan berbagai komplikasi dengan nilai absolut dll, Anda dibiarkan dengan persamaan linear untuk setiap koefisien yang tidak nol. Karena pangkat matriks paling banyak n ketika p > n , ini adalah jumlah persamaan yang dapat diselesaikan, dan oleh karena itu ada paling banyak n non-nol (kecuali ada redundansi).Xnp>n

Ngomong-ngomong, ini berlaku untuk fungsi kerugian, tidak hanya laso standar dengan kehilangan . Jadi itu sebenarnya milik penalti laso. Ada banyak makalah yang menunjukkan pandangan KKT ini dan kesimpulan yang dihasilkan, saya bisa tunjukkan pada makalah kami: Rosset dan Zhu, Jalur Solusi Regulatoris Linear Piecewise, Annals of Stats 2007 dan referensi di dalamnya.L2

Saharon Rosset
sumber
Apa artinya KKT? Juga, mungkinkah Anda berarti kehilangan L1 ketika berbicara tentang laso standar?
miura
Hai Saharon dan selamat datang di situs ini. Anda dapat menggunakan LaTeX untuk membuat formula lebih rapi (saya melakukannya dalam jawaban Anda) dan Anda tidak perlu menandatangani posting Anda, karena tanda tangan ditambahkan secara otomatis.
Peter Flom - Reinstate Monica
1
@miura: KKT singkatan dari Karush-Kuhn-Tucker. Ketentuan KKT adalah persamaan tertentu yang harus dipenuhi oleh solusi untuk masalah optimasi (cukup reguler) ( artikel wikipedia ).
mogron
Saya hanya melihat bahwa Ryan Tibshirani memiliki kertas kerja yang sangat relevan 'Masalah Lasso dan Keunikan.': Stat.cmu.edu/ ~ryantibs / papers / lassounique.pdf
papers
6

Penjelasan lain adalah sebagai berikut: jika , pangkat matriks data X paling banyak n , jadi dimensi ruang nolnya (kanan) setidaknya p - n . Tulis vektor apa pun dalam ruang nol ini sebagai z . Kemudian pada setiap titik yang layak β , seseorang selalu dapat bergerak dalam ruang nol p - n- dimensional menuju sumbu koordinat ruang ambien p- dimensi, untuk sampai pada β + z , di mana (paling banyak) nn<pXnpnzβpnpβ+zn s adalah bukan nol, dan fungsi tujuan LASSOβj

yX(β+z)22+λβ+z1=yXβ22+λβ+z1<yXβ22+λβ1

telah menurun.

pengguna2969758
sumber
(+1) Ada celah di sini: lihat komentar saya di pos OP.
user795305