Keuntungan melakukan "laso ganda" atau melakukan laso dua kali?

26

Saya pernah mendengar metode menggunakan laso dua kali (seperti laso ganda) di mana Anda melakukan laso pada set variabel asli, katakan S1, dapatkan set jarang yang disebut S2, dan kemudian lakukan laso lagi pada set S2 untuk mendapatkan set S3 . Apakah ada istilah metodologis untuk ini? Juga, apa keuntungan melakukan laso dua kali?

Bstat
sumber

Jawaban:

23

Ya, prosedur yang Anda tanyakan (atau pikirkan) disebut laso santai .

Gagasan umum adalah bahwa dalam proses melakukan LASSO untuk pertama kalinya Anda mungkin termasuk "variabel kebisingan"; melakukan LASSO pada set variabel kedua (setelah LASSO pertama) memberikan lebih sedikit kompetisi antara variabel yang merupakan "pesaing nyata" untuk menjadi bagian dari model dan bukan hanya variabel "noise". Secara teknis, tujuan metode ini adalah untuk mengatasi konvergensi LASSO (yang diketahui) lambat dalam kumpulan data dengan sejumlah besar variabel.

Anda dapat membaca lebih lanjut tentang itu di kertas asli oleh Meinshausen (2007) .

Saya juga merekomendasikan bagian 3.8.5 tentang Elemen Pembelajaran Statistik (Hastie, Tibshirani & Friedman, 2008) , yang memberikan tinjauan umum tentang metode lain yang sangat menarik untuk melakukan pemilihan variabel menggunakan LASSO.

Néstor
sumber
Terima kasih! Saya pasti akan melihat artikel Meinshausen.
Bstat
19

Idenya adalah untuk memisahkan dua efek laso

  1. Pemilihan variabel (yaitu, banyak, bahkan sebagian besar, s adalah nol)β
  2. β

p>>n

Gagasan laso santai adalah bahwa Anda memisahkan dua efek: Anda menggunakan penalti tinggi pada pass pertama untuk memilih variabel; dan penalti yang lebih kecil pada pass kedua untuk mengecilkannya dengan jumlah yang lebih kecil.

Makalah asli (sebagaimana ditautkan oleh Néstor) memberikan lebih banyak detail.

luispedro
sumber