Mengapa menggunakan laso kelompok daripada laso?

13

Saya telah membaca bahwa grup laso digunakan untuk pemilihan variabel dan sparsity dalam kelompok variabel. Saya ingin tahu intuisi di balik klaim ini.

  • Mengapa laso grup lebih disukai daripada laso?
  • Mengapa jalur solusi laso grup tidak lurus linear?
Vendetta
sumber
1
Apa yang saya mengerti dari Yuan dan Lin (2006) bahwa laso dirancang untuk memilih variabel individu bukan pemilihan faktor. Jadi laso mengatasi masalah ANOVA di mana tujuannya adalah untuk memilih efek utama dan interaksi penting untuk prediksi akurat yang berjumlah pemilihan kelompok variabel. Contoh lain adalah model addtive dengan polinomial di mana masing-masing komponen dinyatakan sebagai kombinasi linier dari fungsi dasar variabel terukur asli
Vendetta

Jawaban:

11

Secara intuitif, laso grup dapat lebih disukai daripada laso karena menyediakan sarana bagi kami untuk memasukkan (jenis tertentu) informasi tambahan ke dalam perkiraan kami untuk koefisien sebenarnya . Sebagai skenario ekstrem, pertimbangkan hal berikut:β

Dengan , tuliskan sebagai dukungan dari . Pertimbangkan penaksir "oracle" yang merupakan grup laso dengan dua grup - satu dukungan dan satu pelengkap. Biarkan menjadi nilai terkecil dari yang membuat . Karena sifat penalti lasso grup, kita tahu bahwa pada bergerak dari ke (untuk beberapa orang kecilyN(Xβ,σ2I)S={j:βj0}β

β^=argminβyXβ22+λ(|S|1/2βS2+(p|S|)1/2βSC2),
λmaxλβ^=0λλmaxλmaxϵϵ>0 ), tepat satu kelompok akan masuk ke dalam dukungan dari , yang populer dianggap sebagai perkiraan untuk . Karena pengelompokan kami, dengan probabilitas tinggi, grup yang dipilih adalah , dan kami akan melakukan pekerjaan dengan sempurna.β^SS

Dalam praktiknya, kami tidak memilih grup ini dengan baik. Namun, kelompok-kelompok itu, walaupun lebih baik daripada skenario ekstrem di atas, masih akan membantu kita: pilihan masih akan dibuat antara sekelompok kovariat sejati dan sekelompok kovariat tidak benar. Kami masih meminjam kekuatan.

Ini diformalkan di sini . Mereka menunjukkan, dalam beberapa kondisi, bahwa batas atas pada kesalahan prediksi laso grup lebih rendah daripada batas bawah pada kesalahan prediksi laso polos. Artinya, mereka membuktikan bahwa pengelompokan membuat estimasi kami lebih baik.

Untuk pertanyaan kedua Anda: Hukuman laso (polos) linier piecewise, dan ini memunculkan jalur solusi linear piecewise. Secara intuitif, dalam kasus laso grup, penalti tidak lagi linier, jadi kami tidak lagi memiliki properti ini. Referensi hebat tentang linearitas jalur solusi ada di sini . Lihat proposisi mereka 1. Biarkan dan . Mereka menunjukkan bahwa jalur solusi dari grup laso adalah linier jika dan hanya jika sama-sama konstan. Tentu saja, itu bukan karena penalti kami memiliki kelengkungan global.L(β)=yXβ22J(β)=gG|g|1/2βg2

(2L(β^)+λ2J(β^))1J(β^)
J
pengguna795305
sumber
2
Sangat masuk akal sekarang. Terima kasih banyak atas jawaban Anda.
Vendetta
4

Jawaban Ben adalah hasil yang paling umum. Tetapi jawaban intuitif untuk OP dimotivasi oleh kasus prediktor kategori, yang biasanya dikodekan sebagai beberapa variabel dummy: satu untuk setiap kategori. Masuk akal dalam banyak analisis untuk mempertimbangkan variabel dummy ini (mewakili satu prediktor kategori) bersama-sama daripada secara terpisah.

Jika Anda memiliki variabel kategori dengan, katakanlah, lima level, laso lurus mungkin meninggalkan dua masuk dan tiga keluar. Bagaimana Anda menangani ini secara berprinsip? Putuskan untuk memilih? Secara harfiah menggunakan variabel dummy alih-alih kategori yang lebih bermakna? Bagaimana pengodean dummy Anda memengaruhi pilihan Anda?

Seperti yang mereka katakan dalam pengantar Lasso grup untuk regresi logistik , disebutkan:

Sudah untuk kasus khusus dalam regresi linier ketika tidak hanya kontinu tetapi juga prediktor kategori (faktor) hadir, solusi laso tidak memuaskan karena hanya memilih variabel dummy individu daripada seluruh faktor. Selain itu, solusi laso tergantung pada bagaimana variabel dummy dikodekan. Memilih kontras yang berbeda untuk prediksi kategori akan menghasilkan solusi yang berbeda secara umum.

Seperti yang ditunjukkan Ben, ada juga hubungan yang lebih halus antara para prediktor yang mungkin mengindikasikan bahwa mereka harus masuk atau keluar bersama. Tetapi variabel kategori adalah anak poster untuk laso kelompok.

Wayne
sumber
@ Ben: Hmmm ... Saya benar-benar tidak bisa memahami komentar pertama OP, Sepertinya itu tanggapan terhadap komentar yang sekarang dihapus? Pertanyaan itu sendiri dan judulnya - yang akan dibaca oleh kebanyakan pemirsa - tampaknya merupakan pertanyaan umum. Saya pasti akan menghapus jawaban saya jika pertanyaan dan judul diubah menjadi sesuatu tentang "Aplikasi apa yang tidak jelas yang ada untuk mengelompokkan laso di luar kasus variabel kategori?"
Wayne
Baik. Saya suka poin Anda tentang bagaimana menggunakan laso (polos) pada faktor membuat estimasi tergantung pada pengkodean faktor! Saya sebelumnya hanya berpikir tentang kelompok laso sebagai memberi kita semacam "pengukuran sparsity" daripada "parameter sparsity" (yaitu kita harus mengukur faktor atau tidak - semua level harus dipilih atau tidak ada.)
user795305