Punggung, laso, dan jaring elastis

33

Bagaimana metode ridge, LASSO, dan elasticnet regularisasi dibandingkan? Apa kelebihan dan kekurangan masing-masing? Makalah teknis yang baik, atau catatan kuliah akan dihargai juga.

pengguna3269
sumber

Jawaban:

39

Dalam buku The Elements of Statistics Learning , Hastie et al. memberikan perbandingan yang sangat mendalam dan menyeluruh dari teknik penyusutan ini. Buku ini tersedia online ( pdf ). Perbandingan dilakukan di bagian 3.4.3, halaman 69.

Perbedaan utama antara Lasso dan Ridge adalah istilah hukuman yang mereka gunakan. Ridge menggunakan istilah hukuman yang membatasi ukuran vektor koefisien. Lasso menggunakan penalti L 1 yang memaksakan sparsity di antara koefisien dan dengan demikian, membuat model yang dipasang lebih dapat ditafsirkan. Elasticnet diperkenalkan sebagai kompromi antara kedua teknik ini, dan memiliki penalti yang merupakan campuran dari norma L 1 dan L 2 .L2L1L1L2

MMM
sumber
3
Itu adalah buku referensi yang bagus.
bdeonovic
4
juga karena penulis adalah penemu teknik ini!
Bakaburg
1
Terima kasih telah memberi kami referensi buku yang indah ini
Christina
1
Saya sangat merekomendasikan bagian 18.4 juga, halaman 661-668. Memberikan informasi lebih lanjut tentang laso vs jaring elastis.
Katya Handler
1
Tautan ke buku sudah mati pada 14 Oktober 2016
Ashe
22

Untuk meringkas, berikut adalah beberapa perbedaan yang menonjol antara Lasso, Ridge dan Elastic-net:

  1. Lasso melakukan seleksi yang jarang , sedangkan Ridge tidak.
  2. Ketika Anda memiliki variabel yang sangat berkorelasi , regresi Ridge mengecilkan dua koefisien satu sama lain. Lasso agak cuek dan umumnya memilih satu dari yang lain. Bergantung pada konteksnya, orang tidak tahu variabel mana yang dipilih. Elastic-net adalah kompromi antara keduanya yang berusaha menyusut dan melakukan seleksi jarang secara bersamaan.
  3. Penaksir Ridge tidak peduli dengan penskalaan multiplikasi data. Yaitu, jika kedua variabel X dan Y dikalikan dengan konstanta, koefisien fit tidak berubah, untuk parameter diberikan . Namun, untuk Lasso, fit tidak terlepas dari penskalaan. Bahkan, parameter λ harus ditingkatkan oleh pengali untuk mendapatkan hasil yang sama. Ini lebih kompleks untuk jaring elastis.λλ
  4. β
balaks
sumber
@ balaks untuk poin kedua yang Anda buat, apa artinya 'seseorang tidak tahu variabel mana yang akan diambil'? Apakah maksud Anda LASSO acuh tak acuh, jadi itu semacam memilih secara acak sehingga kita tidak benar-benar tahu mana yang terbaik?
meTchaikovsky
4

Saya sangat menyarankan Anda untuk melihat Pengantar buku pembelajaran statistik (Tibshirani et. Al, 2013).

Alasan untuk ini adalah bahwa Elemen buku pembelajaran statistik ditujukan untuk individu dengan pelatihan lanjutan dalam ilmu matematika. Dalam kata pengantar untuk ISL, penulis menulis:

Sebuah Pengantar statistik Belajar muncul dari kebutuhan yang dirasakan untuk perawatan yang lebih luas dan kurang teknis topik ini. [...]

Pengantar Pembelajaran Statistik cocok untuk mahasiswa tingkat sarjana atau master dalam bidang statistik atau bidang kuantitatif terkait atau untuk individu dalam disiplin ilmu lain yang ingin menggunakan alat pembelajaran statistik untuk menganalisis data mereka.

jeza
sumber
1
Bisakah Anda menguraikan mengapa Anda menemukan referensi ini berguna?
JM bukan ahli statistik
1
Tidak apa-apa mengutip buku, tapi harap tandai sebagai kutipan dan bukan sebagai teks Anda sendiri. Kalau tidak, itu plagiarisme. Saya mengeditnya untuk Anda sekarang.
Amuba kata Reinstate Monica
1

Jawaban di atas sangat jelas dan informatif. Saya ingin menambahkan satu poin minor dari perspektif statistik. Ambil regresi ridge sebagai contoh. Ini merupakan perpanjangan dari regresi kuadrat terkecil ordinal untuk menyelesaikan masalah multikolinieritas ketika ada banyak fitur yang berkorelasi. Jika regresi linier adalah

Y=Xb+e

Solusi persamaan normal untuk regresi linier berganda

b=inv(X.T*X)*X.T*Y

Solusi persamaan normal untuk regresi ridge adalah

b=inv(X.T*X+k*I)*X.T*Y. 

Ini adalah penaksir yang bias untuk b dan kita selalu dapat menemukan istilah penalti k yang akan membuat kesalahan kuadrat rata-rata dari regresi Ridge lebih kecil dari pada regresi OLS.

Untuk LASSO dan Elastic-Net, kami tidak dapat menemukan solusi analitik seperti itu.

Emma
sumber