Memilih rentang dan kerapatan jaringan untuk parameter regularisasi di LASSO

11

Saya sedang mempelajari LASSO (setidaknya penyusutan absolut dan operator seleksi) sementara itu. Saya melihat bahwa nilai optimal untuk parameter regularisasi dapat dipilih dengan validasi silang. Saya melihat juga dalam regresi ridge dan banyak metode yang menerapkan regularisasi, kita dapat menggunakan CV untuk menemukan parameter regularisasi yang optimal (mengatakan penalti). Sekarang pertanyaan saya adalah tentang nilai awal untuk batas atas dan batas bawah parameter dan bagaimana menentukan panjang urutan.

Untuk lebih spesifik, anggap kita memiliki masalah dan kami ingin menemukan nilai optimal untuk penalti, . Lalu bagaimana kita dapat memilih batas bawah dan atas untuk ? dan berapa banyak perpecahan di antara kedua nilai ini ? λ λ [ a = ? , b = ? ] ( b - a )

LogLikelihood=(yxβ)(yxβ)+λ|β|1
λλ[a=?,b=?](ba)k=?
TPArrow
sumber
Pertanyaan terkait di sini .
Richard Hardy
Kemungkinan duplikat kehalusan dan overfitting Grid menggunakan regularisasi (LASSO, ridge, elastic net)
Sycorax mengatakan Reinstate Monica

Jawaban:

12

Metodologi ini dijelaskan dalam makalah Jalur Regularisasi kertas glmnet untuk Model Linear Umum melalui Keturunan Koordinat . Meskipun metodologi di sini adalah untuk kasus umum baik regularisasi dan , metodologi ini harus berlaku untuk LASSO (hanya ) juga.L 2 L 1L1L2L1

Solusi untuk maksimum diberikan di bagian 2.5. λ

Ketika , kita melihat dari (5) bahwa akan tetap nol jika . Karenanya, ˜ β j1β~=0β~jNαλmax=maksl| Xl,y|1N|xj,y|<λαNαλmax=maxl|xl,y|

Yaitu, kami amati bahwa aturan pembaruan untuk beta memaksa semua perkiraan parameter menjadi nol untuk seperti yang ditentukan di atas.λ>λmax

Penentuan dan jumlah titik kisi tampaknya kurang berprinsip. Di glmnet mereka menetapkan , dan kemudian memilih kisi titik yang berjarak sama pada skala logaritmik. λ m i n = 0.001 λ m a x 100λminλmin=0.001λmax100

Ini bekerja dengan baik dalam praktiknya, dalam penggunaan glmnet yang ekstensif, saya tidak pernah menemukan grid ini terlalu kasar.

Dalam LASSO ( ) hanya hal-hal yang berfungsi lebih baik, karena metode LARS memberikan perhitungan yang tepat ketika berbagai prediktor masuk ke dalam model. LARS yang sebenarnya tidak melakukan pencarian kisi-kisi atas , melainkan menghasilkan ekspresi yang tepat untuk jalur solusi untuk koefisien. Berikut ini adalah tampilan terperinci pada perhitungan yang tepat dari jalur koefisien dalam dua kasus prediktor. λL1λ

Kasus untuk model non-linear (yaitu logistik, poisson) lebih sulit. Pada tingkat tinggi, pertama perkiraan kuadratik untuk fungsi kerugian diperoleh pada parameter awal , dan kemudian perhitungan di atas digunakan untuk menentukan . Penghitungan jalur parameter yang tepat tidak dimungkinkan dalam kasus ini, bahkan ketika hanya pengaturan yang disediakan, sehingga pencarian kisi adalah satu-satunya pilihan.λ m a x L 1β=0λmaxL1

Bobot sampel juga memperumit situasi, produk dalam harus diganti di tempat yang sesuai dengan produk dalam yang tertimbang.

Matthew Drury
sumber