Soft-thresholding vs. Lasso adu penalti

Saya mencoba untuk meringkas apa yang saya mengerti sejauh ini dalam analisis multivariat yang dihukum dengan set data dimensi tinggi, dan saya masih berjuang melalui mendapatkan definisi yang tepat dari hukuman lunak thresholding vs Lasso (atau ). $L_1$

Lebih tepatnya, saya menggunakan regresi PLS jarang untuk menganalisis struktur data 2-blok termasuk data genomik ( polimorfisme nukleotida tunggal , di mana kami mempertimbangkan frekuensi alel minor dalam kisaran {0,1,2}, dianggap sebagai variabel numerik) dan fenotip kontinu (skor mengkuantifikasi sifat kepribadian atau asimetri serebral, juga diperlakukan sebagai variabel kontinu). Idenya adalah untuk mengisolasi prediktor yang paling berpengaruh (di sini, variasi genetik pada urutan DNA) untuk menjelaskan variasi fenotip antar individu.

Saya awalnya menggunakan paket mixOmics R (sebelumnya integrOmics) yang menampilkan regresi PLS yang terkena sanksi dan CCA yang diatur . Melihat kode R, kami menemukan bahwa "sparsity" di prediksi hanya diinduksi dengan memilih bagian atas variabel dengan beban tertinggi (nilai absolut) pada komponen th, (algoritma adalah variabel yang berulang dan menghitung pemuatan pada komponen , mengempiskan blok prediktor di setiap iterasi, lihat Jarang PLS: Pemilihan Variabel saat Mengintegrasikan data Omics untuk gambaran umum). Sebaliknya, paket spls ditulis bersama oleh S. Keleş (lihat $k$ $i$ $i=1,\dots, k$ $k$ Regresi kuadrat terkecil parsial untuk Pengurangan Dimensi Simultan dan Pemilihan Variabel , untuk deskripsi yang lebih formal dari pendekatan yang dilakukan oleh para penulis ini) menerapkan -pinalisasi untuk hukuman variabel. $L_1$

Tidak jelas bagi saya apakah ada "penindasan" yang ketat, bisa dikatakan, antara pemilihan fitur berulang berdasarkan soft-thresholding dan regularisasi . Jadi pertanyaan saya adalah: Apakah ada hubungan matematika antara keduanya? $L_1$

Referensi

Chun, H. dan Kele ̧s, S. (2010), kuadrat terkecil parsial untuk pengurangan dimensi simultan dan pemilihan variabel . Jurnal Masyarakat Statistik Kerajaan: Seri B , 72 , 3–25.
Le Cao, K.-A., Rossouw, D., Robert-Granie, C., dan Besse, P. (2008), A PLS Jarang untuk Seleksi Variabel ketika Mengintegrasikan Data Omics . Aplikasi Statistik dalam Genetika dan Biologi Molekuler , 7 , Pasal 35.

multivariate-analysis lasso feature-selection genetics chl
sumber

Jawaban:

Apa yang akan saya katakan berlaku untuk regresi, tetapi juga berlaku untuk PLS. Jadi itu bukan sebuah bujukan karena bergantung pada seberapa banyak Anda menegakkan batasan di , Anda akan memiliki berbagai 'jawaban' sedangkan solusi kedua hanya mengakui jawaban yang mungkin (di mana adalah jumlah variabel) <-> ada lebih banyak solusi dalam formulasi daripada dalam formulasi 'truncation'. $l1$ $p$ $p$ $l1$

pengguna603
sumber

@ kwak Ok, algoritma LARS tampaknya jauh lebih canggih daripada ambang batas sederhana pada kepentingan variabel, tetapi intinya adalah bahwa saya tidak melihat hubungan yang jelas antara parameter penalti dan # variabel yang diminta untuk disimpan dalam model; menurut saya kita tidak dapat selalu menemukan parameter penalti yang akan menghasilkan # variabel yang tepat secara pasti.

chl

@ chl:> S-PLS yang Anda maksud? (Anda menulis LARS yang merupakan hal yang berbeda dari algoritma yang Anda diskusikan). Memang, ada hubungan monoton antara parameter penalti dan # komponen, tetapi itu bukan hubungan linier dan hubungan ini bervariasi berdasarkan kasus per kasus (tergantung pada dataset / masalah).

user603

@kwak L1-penalti dapat diraih menggunakan LARS, kecuali jika saya menyesatkan. Poin kedua Anda adalah apa yang ada dalam pikiran saya sebenarnya; apakah Anda punya referensi tentang hal itu?

chl

@ chl:> * L1-penalti dapat dicapai menggunakan LARS, kecuali saya menyesatkan * saya tidak tahu itu (dan agak meragukannya). Bisakah Anda memberikan referensi? Terima kasih. untuk pertanyaan kedua Anda: lihat “derajat kebebasan” laso Hui Zou, Trevor Hastie, dan Robert Tibshirani Sumber: Ann. Statist. Volume 35, Nomor 5 (2007), 2173-2192. (ada banyak versi ungated).

user603

@kwak Lihat halaman web Tibshirani , www-stat.stanford.edu/~tibs/lasso.html dan larspaket R; metode lain termasuk keturunan koordinat (lihat JSS 2010 33 (1), bit.ly/bDNUFo ), dan scikit.learnpaket Python menampilkan kedua pendekatan, bit.ly/bfhnZz .

chl

$L_1$ hukuman adalah bagian dari masalah optimisasi. Soft-thresholding adalah bagian dari suatu algoritma. Terkadang hukuman mengarah ke soft-thresholding. $L_1$

Untuk regresi, dihukum kotak kuadrat (Lasso) menghasilkan soft-thresholding ketika kolom matriks adalah ortogonal (dengan asumsi baris sesuai dengan sampel yang berbeda). Ini sangat mudah untuk diturunkan ketika Anda mempertimbangkan kasus khusus estimasi rata-rata, di mana matriks terdiri dari tunggal di setiap baris dan nol di mana pun. $L_1$ $X$ $X$ $1$

Untuk matriks umum , menghitung solusi Lasso melalui penurunan koordinat hasil siklik pada dasarnya soft-thresholding. Lihat http://projecteuclid.org/euclid.aoas/1196438020 . $X$

vqv
sumber

(+1) Terima kasih untuk ini, terutama makalah Friedman.

chl