Mengapa Lasso atau ElasticNet berkinerja lebih baik daripada Ridge ketika fitur-fiturnya dikorelasikan

17

Saya memiliki 150 fitur, dan banyak di antaranya sangat berkorelasi satu sama lain. Tujuan saya adalah untuk memprediksi nilai variabel diskrit, yang kisarannya 1-8 . Ukuran sampel saya adalah 550 , dan saya menggunakan validasi silang 10 kali lipat .

AFAIK, di antara metode regularisasi (Lasso, ElasticNet, dan Ridge), Ridge lebih teliti untuk korelasi antar fitur. Itu sebabnya saya berharap bahwa dengan Ridge, saya harus mendapatkan prediksi yang lebih akurat. Namun, hasil saya menunjukkan bahwa kesalahan absolut rata-rata Lasso atau Elastis adalah sekitar 0,61 sedangkan skor ini adalah 0,97 untuk regresi ridge. Saya ingin tahu apa yang akan menjadi penjelasan untuk ini. Apakah ini karena saya memiliki banyak fitur, dan Lasso berkinerja lebih baik karena membuat semacam pemilihan fitur, menghilangkan fitur yang berlebihan?

renakre
sumber
1
mengapa menurut Anda ridge harus berkinerja lebih baik? apa ukuran sampel anda?
bdeonovic
1
Apa yang dimaksud dengan "lebih teliti terhadap regresi"?
bdeonovic

Jawaban:

21

Misalkan Anda memiliki dua variabel prediktor yang sangat berkorelasi , dan anggap keduanya berpusat dan diskalakan (berarti nol, varians satu). Maka penalti ridge pada vektor parameter adalah β 2 1 + β 2 2 sedangkan istilah penalti laso adalah β 1+ β 2 . Sekarang, karena modelnya dianggap sangat kolinear, sehingga x dan z lebih atau kurang dapat saling menggantikan dalam memprediksi Y , begitu banyak kombinasi linear dari x , z di mana kita cukup mensubstitusi sebagianx,zβ12+β22β1+β2xzYx,z untuk z , akan bekerja sangat mirip dengan prediktor, misalnya 0,2 x + 0,8 x , 0,3 x + 0,7 z atau 0,5 x + 0,5 zxz0.2x+0.8x,0.3x+0.7z0.5x+0.5zakan sama baiknya dengan prediksi. Sekarang lihat tiga contoh ini, penalti laso dalam ketiga kasus adalah sama, yaitu 1, sedangkan penalti ridge berbeda, masing-masing 0,68, 0,58, 0,5, sehingga penalti ridge akan lebih menyukai bobot variabel colinear yang sama sedangkan penalti laso tidak akan dapat memilih. Ini adalah salah satu alasan ridge (atau lebih umum, jaring elastis, yang merupakan kombinasi linear dari penalti laso dan ridge) akan bekerja lebih baik dengan prediktor colinear: Ketika data memberikan sedikit alasan untuk memilih antara kombinasi linear yang berbeda dari prediktor colinear, laso hanya akan "berkeliaran" sementara punggung bukit cenderung memilih bobot yang sama. Yang terakhir mungkin merupakan tebakan yang lebih baik untuk digunakan dengan data masa depan! Dan, jika demikian halnya dengan data saat ini, dapat muncul dalam validasi silang sebagai hasil yang lebih baik dengan ridge.

Kita dapat melihat ini dengan cara bayesian: Ridge dan laso menyiratkan informasi sebelumnya berbeda, dan informasi sebelumnya yang tersirat oleh punggungan cenderung lebih masuk akal dalam situasi seperti itu. (Penjelasan di sini saya belajar, kurang lebih, dari buku: "Pembelajaran Statistik dengan Sparsity The Lasso and Generalisasi" oleh Trevor Hastie, Robert Tibshirani dan Martin Wainwright, tetapi pada saat ini saya tidak dapat menemukan kutipan langsung).

kjetil b halvorsen
sumber
4
Poin bagus tentang kemungkinan ridge bekerja lebih baik pada data masa depan. Perbedaan antara kesalahan pada validasi silang dalam data saat ini dan kegunaan pada data baru terlalu sering terlewatkan. Untuk beberapa perkiraan yang terakhir, OP dapat mengulangi seluruh proses pembuatan model LASSO, elastic-net dan ridge pada beberapa sampel bootstrap data, dan kemudian memeriksa kesalahan ketika diterapkan pada set data lengkap. Setidaknya itu menguji proses pembuatan model.
EdM
Tidak jelas bagi saya mengapa akan menguntungkan untuk memilih bobot yang sama untuk data collinear? Bisakah seseorang menguraikan hal itu?
Ramon Martinez
3

Perbedaan paling penting antara laso dan ridge adalah laso secara alami membuat pilihan, terutama di mana kovariat sangat berkorelasi. tidak mungkin untuk benar-benar yakin tanpa melihat koefisien yang dipasang, tetapi mudah untuk berpikir bahwa di antara fitur-fitur yang berkorelasi, banyak yang sama sekali tidak berguna.

carlo
sumber