Saya mencoba untuk meringkas apa yang saya mengerti sejauh ini dalam analisis multivariat yang dihukum dengan set data dimensi tinggi, dan saya masih berjuang melalui mendapatkan definisi yang tepat dari hukuman lunak thresholding vs Lasso (atau ).
Lebih tepatnya, saya menggunakan regresi PLS jarang untuk menganalisis struktur data 2-blok termasuk data genomik ( polimorfisme nukleotida tunggal , di mana kami mempertimbangkan frekuensi alel minor dalam kisaran {0,1,2}, dianggap sebagai variabel numerik) dan fenotip kontinu (skor mengkuantifikasi sifat kepribadian atau asimetri serebral, juga diperlakukan sebagai variabel kontinu). Idenya adalah untuk mengisolasi prediktor yang paling berpengaruh (di sini, variasi genetik pada urutan DNA) untuk menjelaskan variasi fenotip antar individu.
Saya awalnya menggunakan paket mixOmics R (sebelumnya integrOmics
) yang menampilkan regresi PLS yang terkena sanksi dan CCA yang diatur . Melihat kode R, kami menemukan bahwa "sparsity" di prediksi hanya diinduksi dengan memilih bagian atas variabel dengan beban tertinggi (nilai absolut) pada komponen th, (algoritma adalah variabel yang berulang dan menghitung pemuatan pada komponen , mengempiskan blok prediktor di setiap iterasi, lihat Jarang PLS: Pemilihan Variabel saat Mengintegrasikan data Omics untuk gambaran umum). Sebaliknya, paket spls ditulis bersama oleh S. Keleş (lihati i = 1 , … , k k L 1Regresi kuadrat terkecil parsial untuk Pengurangan Dimensi Simultan dan Pemilihan Variabel , untuk deskripsi yang lebih formal dari pendekatan yang dilakukan oleh para penulis ini) menerapkan -pinalisasi untuk hukuman variabel.
Tidak jelas bagi saya apakah ada "penindasan" yang ketat, bisa dikatakan, antara pemilihan fitur berulang berdasarkan soft-thresholding dan regularisasi . Jadi pertanyaan saya adalah: Apakah ada hubungan matematika antara keduanya?
Referensi
- Chun, H. dan Kele ̧s, S. (2010), kuadrat terkecil parsial untuk pengurangan dimensi simultan dan pemilihan variabel . Jurnal Masyarakat Statistik Kerajaan: Seri B , 72 , 3–25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C., dan Besse, P. (2008), A PLS Jarang untuk Seleksi Variabel ketika Mengintegrasikan Data Omics . Aplikasi Statistik dalam Genetika dan Biologi Molekuler , 7 , Pasal 35.
lars
paket R; metode lain termasuk keturunan koordinat (lihat JSS 2010 33 (1), bit.ly/bDNUFo ), danscikit.learn
paket Python menampilkan kedua pendekatan, bit.ly/bfhnZz .L 1L1 hukuman adalah bagian dari masalah optimisasi. Soft-thresholding adalah bagian dari suatu algoritma. Terkadang hukuman mengarah ke soft-thresholding.L1
Untuk regresi, dihukum kotak kuadrat (Lasso) menghasilkan soft-thresholding ketika kolom matriks adalah ortogonal (dengan asumsi baris sesuai dengan sampel yang berbeda). Ini sangat mudah untuk diturunkan ketika Anda mempertimbangkan kasus khusus estimasi rata-rata, di mana matriks terdiri dari tunggal di setiap baris dan nol di mana pun. X X 1L1 X X 1
Untuk matriks umum , menghitung solusi Lasso melalui penurunan koordinat hasil siklik pada dasarnya soft-thresholding. Lihat http://projecteuclid.org/euclid.aoas/1196438020 .X
sumber