Pada halaman 223 dalam Pengantar Pembelajaran Statistik , penulis merangkum perbedaan antara regresi ridge dan laso. Mereka memberikan contoh (Gambar 6.9) ketika "laso cenderung mengungguli regresi ridge dalam hal bias, varians, dan MSE".
Saya mengerti mengapa laso diinginkan: ini menghasilkan solusi yang jarang karena menyusut banyak koefisien menjadi 0, menghasilkan model yang sederhana dan dapat ditafsirkan. Tapi saya tidak mengerti bagaimana itu bisa mengungguli ridge ketika hanya prediksi yang menarik (yaitu bagaimana mendapatkan MSE yang jauh lebih rendah dalam contoh?).
Dengan punggungan, jika banyak prediktor hampir tidak mempengaruhi respons (dengan beberapa prediktor memiliki efek besar), bukankah koefisiennya akan menyusut menjadi sejumlah kecil yang mendekati nol ... menghasilkan sesuatu yang sangat mirip dengan laso ? Jadi mengapa model akhir memiliki kinerja yang lebih buruk daripada laso?
sumber
Jawaban:
Anda berhak mengajukan pertanyaan ini. Secara umum, ketika aturan penilaian akurasi yang tepat digunakan (misalnya, rata-rata kesalahan prediksi kuadrat), regresi ridge akan mengungguli laso. Lasso menghabiskan beberapa informasi yang mencoba menemukan prediktor yang "tepat" dan bahkan tidak hebat dalam melakukan itu dalam banyak kasus. Kinerja relatif keduanya akan tergantung pada distribusi koefisien regresi yang benar. Jika Anda memiliki sebagian kecil koefisien bukan nol dalam kebenaran, laso dapat bekerja lebih baik. Secara pribadi saya menggunakan punggungan hampir setiap saat ketika tertarik pada akurasi prediksi.
sumber
Saya pikir pengaturan spesifik dari contoh yang Anda referensi adalah kunci untuk memahami mengapa lasso mengungguli ridge: hanya 2 dari 45 prediktor yang benar-benar relevan.
Ini berbatasan dengan kasus patologis: laso, khusus dimaksudkan untuk membuat pengurangan menjadi nol mudah, melakukan persis seperti yang dimaksudkan, sementara punggungan harus berurusan dengan sejumlah besar istilah yang tidak berguna (bahkan efeknya berkurang mendekati nol, itu masih merupakan efek tidak-nol).
sumber