Jika hanya prediksi yang menarik, mengapa menggunakan laso over ridge?

37

Pada halaman 223 dalam Pengantar Pembelajaran Statistik , penulis merangkum perbedaan antara regresi ridge dan laso. Mereka memberikan contoh (Gambar 6.9) ketika "laso cenderung mengungguli regresi ridge dalam hal bias, varians, dan MSE".

Saya mengerti mengapa laso diinginkan: ini menghasilkan solusi yang jarang karena menyusut banyak koefisien menjadi 0, menghasilkan model yang sederhana dan dapat ditafsirkan. Tapi saya tidak mengerti bagaimana itu bisa mengungguli ridge ketika hanya prediksi yang menarik (yaitu bagaimana mendapatkan MSE yang jauh lebih rendah dalam contoh?).

Dengan punggungan, jika banyak prediktor hampir tidak mempengaruhi respons (dengan beberapa prediktor memiliki efek besar), bukankah koefisiennya akan menyusut menjadi sejumlah kecil yang mendekati nol ... menghasilkan sesuatu yang sangat mirip dengan laso ? Jadi mengapa model akhir memiliki kinerja yang lebih buruk daripada laso?

Oliver Angelil
sumber
2
Saya melihat tautan itu. Itu tidak menjawab pertanyaan.
Oliver Angelil

Jawaban:

34

Anda berhak mengajukan pertanyaan ini. Secara umum, ketika aturan penilaian akurasi yang tepat digunakan (misalnya, rata-rata kesalahan prediksi kuadrat), regresi ridge akan mengungguli laso. Lasso menghabiskan beberapa informasi yang mencoba menemukan prediktor yang "tepat" dan bahkan tidak hebat dalam melakukan itu dalam banyak kasus. Kinerja relatif keduanya akan tergantung pada distribusi koefisien regresi yang benar. Jika Anda memiliki sebagian kecil koefisien bukan nol dalam kebenaran, laso dapat bekerja lebih baik. Secara pribadi saya menggunakan punggungan hampir setiap saat ketika tertarik pada akurasi prediksi.

Frank Harrell
sumber
1
Adakah contoh ketika Anda tidak tertarik pada akurasi prediksi?
Walrus the Cat
1
@ WalrustheCat Beberapa orang, stereo-biasanya berasal dari Stanford, menganjurkan penggunaan Lasso dalam pemilihan variabel dimensi tinggi. Agaknya, Frank berarti "... terutama tertarik pada akurasi prediktif" daripada hanya "... tertarik pada akurasi prediktif", meskipun, menurut pendapat saya, perbedaan antara keduanya adalah dua hal yang sangat berguna.
John Madden
Saya tidak pernah mengerti pendekatan "regularisasi sebagai pengurangan dimensi". Anda dapat melakukan pengurangan dimensi, baik melalui laso regularisasi atau tidak, dan kemudian menggunakan fungsi regularisasi terbaik untuk masalah awal Anda pada fitur yang dihasilkan. Tapi saya ngelantur.
Walrus the Cat
9
Dari "Secara umum [...] regresi ridge akan mengungguli laso" dan "Jika Anda memiliki sebagian kecil dari koefisien bukan nol dalam kebenaran, laso dapat berkinerja lebih baik" tampaknya mengikuti bahwa dalam kebanyakan masalah prediksi kebenaran dasar tidak jarang. Apakah ini yang kamu katakan?
Amuba kata Reinstate Monica
5
Ya, terutama. Jika Anda tahu kebenaran dasar "dalam distribusi" Anda akan membuat distribusi Bayesian sebelumnya untuk koefisien regresi yang tidak diketahui yang akan memberi Anda hasil yang optimal. Dan bahkan ketika, katakanlah, 3/4 dari prediktor memiliki efek nol, punggungan kompetitif dengan laso.
Frank Harrell
11

Saya pikir pengaturan spesifik dari contoh yang Anda referensi adalah kunci untuk memahami mengapa lasso mengungguli ridge: hanya 2 dari 45 prediktor yang benar-benar relevan.

Ini berbatasan dengan kasus patologis: laso, khusus dimaksudkan untuk membuat pengurangan menjadi nol mudah, melakukan persis seperti yang dimaksudkan, sementara punggungan harus berurusan dengan sejumlah besar istilah yang tidak berguna (bahkan efeknya berkurang mendekati nol, itu masih merupakan efek tidak-nol).

mbrig
sumber