Mengapa menggunakan regularisasi L1 di atas L2?

10

Melakukan model regresi linier menggunakan fungsi kerugian, mengapa saya harus menggunakan daripada regularisasi ?L 2L1L2

Apakah lebih baik mencegah overfitting? Apakah itu deterministik (jadi selalu solusi unik)? Apakah lebih baik dalam pemilihan fitur (karena memproduksi model jarang)? Apakah ini membubarkan bobot di antara fitur-fiturnya?

astudentofmaths
sumber
2
L2 tidak melakukan pemilihan variabel, jadi L1 secara definitif lebih baik dalam hal ini.
Michael M

Jawaban:

5

Pada dasarnya, kami menambahkan istilah regularisasi untuk mencegah koefisien agar pas dengan overfit.

Perbedaan antara L1 dan L2 adalah L1 adalah jumlah bobot dan L2 hanyalah jumlah dari kuadrat bobot.

L1 tidak dapat digunakan dalam pendekatan berbasis gradien karena tidak dapat dibedakan tidak seperti L2

L1 membantu melakukan pemilihan fitur dalam ruang fitur yang jarang. Pemilihan fitur adalah untuk mengetahui fitur mana yang membantu dan mana yang berlebihan.

Perbedaan antara sifat-sifatnya dapat diringkas sebagai:

l1 vs l2

Bathini Pranay kumar
sumber
1
Tidak benar bahwa "L1 tidak dapat digunakan dalam pendekatan berbasis gradien". Keras mendukungnya , misalnya. Ya, turunan selalu konstan sehingga mempersulit gradient descent untuk menemukan minimum. Tetapi regularisasi adalah istilah kecil dalam fungsi kerugian, jadi itu tidak terlalu penting dalam skema besar hal.
Ricardo Cruz
-1

L2 memiliki satu keuntungan yang sangat penting untuk L1, dan itu adalah invarian untuk rotasi dan skala.

Ini sangat penting dalam aplikasi geografis / fisik.

Katakanlah teknisi Anda secara tidak sengaja memasang sensor Anda di sudut 45 derajat, L1 akan terpengaruh, sedangkan L2 (jarak Euclidean) akan tetap sama.

Chati Denati
sumber
4
Ini sama sekali bukan jawaban untuk pertanyaan itu.
kbrose
Bisakah Anda menjelaskan invariannya?
aneesh joshi
@ Chati, pertanyaannya adalah tentang regularisasi. Anda mengacaukannya dengan penggunaan fungsi 1-norma dan 2-norma lainnya.
Ricardo Cruz