Mengapa norma L1 untuk model jarang

97

Saya membaca buku-buku tentang regresi linier. Ada beberapa kalimat tentang norma L1 dan L2. Saya tahu mereka, hanya tidak mengerti mengapa norma L1 untuk model jarang. Bisakah seseorang menggunakan memberikan penjelasan sederhana?

regression lasso regularization ridge-regression Yongwei Xing
sumber

4

Pada dasarnya, sparsity diinduksi oleh tepi tajam yang terletak pada poros permukaan isosur. Penjelasan grafis terbaik yang saya temukan sejauh ini ada di video ini: youtube.com/watch?v=sO4ZirJh9ds

felipeduque

1

Ada artikel blog di chioka.in/… yang

prashanth

Periksa posting Medium berikut. Mungkin membantu medium.com/@vamsi149/…

solver149

111

Pertimbangkan vektor mana kecil. The dan norma-norma , masing-masing, diberikan oleh $\vec{x}=(1,\varepsilon)\in\mathbb{R}^2$ $\varepsilon>0$ $l_1$ $l_2$ $\vec{x}$

| | \vec{x} | |_{1} = 1 + ε, | | \vec{x} | |_{2}^{2} = 1 + ε^{2}

$||\vec{x}||_1 = 1+\varepsilon,\ \ ||\vec{x}||_2^2 = 1+\varepsilon^2$

Sekarang katakan bahwa, sebagai bagian dari beberapa prosedur regularisasi, kita akan mengurangi besarnya salah satu elemen oleh . Jika kita mengubah ke , norma yang dihasilkan adalah $\vec{x}$ $\delta\leq\varepsilon$ $x_1$ $1-\delta$

| | \vec{x} - (δ, 0) | |_{1} = 1 - δ + ε, | | \vec{x} - (δ, 0) | |_{2}^{2} = 1 - 2 δ + δ^{2} + ε^{2}

$||\vec{x}-(\delta,0)||_1 = 1-\delta+\varepsilon,\ \ ||\vec{x}-(\delta,0)||_2^2 = 1-2\delta+\delta^2+\varepsilon^2$

Di sisi lain, mengurangi oleh memberikan norma $x_2$ $\delta$

| | \vec{x} - (0, δ) | |_{1} = 1 - δ + ε, | | \vec{x} - (0, δ) | |_{2}^{2} = 1 - 2 ε δ + δ^{2} + ε^{2}

$||\vec{x}-(0,\delta)||_1 = 1-\delta+\varepsilon,\ \ ||\vec{x}-(0,\delta)||_2^2 = 1-2\varepsilon\delta+\delta^2+\varepsilon^2$

Hal yang perlu diperhatikan di sini adalah bahwa, untuk penalti, regularizing jangka yang lebih besar hasil dalam pengurangan lebih besar dalam norma daripada melakukannya dengan istilah yang lebih kecil . Untuk penalti, namun, pengurangan adalah sama. Jadi, ketika menghukum model menggunakan norma, sangat tidak mungkin bahwa apa pun akan pernah diatur ke nol, karena penurunan norma pergi dari ke hampir tidak ada ketika kecil. Di sisi lain, pengurangan $l_2$ $x_1$ $x_2\approx 0$ $l_1$ $l_2$ $l_2$ $\varepsilon$ $0$ $\varepsilon$ $l_1$ norma selalu sama dengan , terlepas dari jumlah yang dihukum. $\delta$

Cara lain untuk memikirkannya: bukan hanya hukuman mendorong sparsity, tetapi hukuman dalam beberapa hal mencegah kekecilan dengan menghasilkan pengembalian yang semakin berkurang ketika elemen-elemen bergerak mendekati nol. $l_1$ $l_2$

bnaul
sumber

3

Terima kasih atas jawaban anda! Tapi saya tidak yakin dengan poin terakhir. Jika Anda menjalankan regresi linier tanpa sanksi, Anda hampir tidak akan pernah mendapatkan solusi yang jarang (sedangkan menambahkan penalti L1 sering memberi Anda sparsity). Jadi hukuman L1 sebenarnya mendorong sparsity dengan mengirimkan koefisien yang mulai mendekati nol hingga nol.

Stefan Taruhan

2

l_{1}

$l_1$

l_{α}

$l_\alpha$

α \leq 1

$\alpha\leq1$

l_{0}

$l_0$

1

Ya - itu benar. Ada banyak norma yang mengarah ke sparsity (misalnya, seperti yang Anda sebutkan, norma Lp dengan p <= 1). Secara umum, norma apa pun dengan sudut tajam di nol menyebabkan sparsity. Jadi, kembali ke pertanyaan awal - norma L1 menginduksi sparsity dengan memiliki gradien diskontinyu pada nol (dan hukuman lain dengan properti ini akan melakukannya juga).

Stefan Taruhan

3

Jika ada yang ingin membaca lebih lanjut, ada literatur aktif tentang fungsi penalti non-cembung yang merupakan alternatif dari norma L1 (misalnya, baru-baru ini, papers.nips.cc/paper/… ).

Stefan Taruhan

1

jawaban yang bagus saya telah bertanya-tanya di sekitar untuk sementara waktu sampai saya menemukan ini.

Hady Elsahar

73

Dengan model yang jarang, kami memikirkan model di mana banyak bobotnya adalah 0. Karena itu, mari kita beralasan tentang bagaimana L1-regularisasi lebih mungkin menciptakan 0-weight.

$(w_1, w_2, \dots, w_m)$

$L_1(w)$ $\Sigma_i |w_i|$

$L_2(w)$ $\frac{1}{2} \Sigma_i w_i^2$

$\eta$

$\frac{dL_1(w)}{dw} = sign(w)$ $sign(w) = (\frac{w_1}{|w_1|}, \frac{w_2}{|w_2|}, \dots, \frac{w_m}{|w_m|})$

$\frac{dL_2(w)}{dw} = w$

Jika kita memplot fungsi kerugian dan turunannya untuk model yang hanya terdiri dari satu parameter, sepertinya ini untuk L1:

masukkan deskripsi gambar di sini

Dan seperti ini untuk L2:

$L_1$ $w_1 = 0$ $L_2$

$w_1 = 5$ $\eta = \frac{1}{2}$ $w_1 := w_1 - \eta \cdot \frac{dL_1(w)}{dw} = w_1 - \frac{1}{2} \cdot 1$ $w_1 = 0$

masukkan deskripsi gambar di sini

$\eta = \frac{1}{2}$ $w_1$ $w_1 := w_1 - \eta \cdot \frac{dL_2(w)}{dw} = w_1 - \frac{1}{2} \cdot w_1$

masukkan deskripsi gambar di sini

$\eta$

Kent Munthe Caspersen
sumber

3

η = 0.5

$\eta = 0.5$

w_{f i r s t s t e p} = 0.1 - 0.5 * (+ 1) => w = - 0.4

$w_{first\text{ }step} = 0.1 - 0.5*(+1) => w = -0.4$

w_{s e c o n d s t e p} = - 0.4 - 0.5 * (- 1) = 0.1.

$w_{second step} = -0.4 - 0.5*(-1) = 0.1.$

5

@AlexYashin yang benar - jika kita hanya memperbarui bobot berdasarkan regularisasi L1, kita mungkin berakhir memiliki bobot yang berosilasi di dekat 0. Tapi kita tidak pernah menggunakan regularisasi sendirian untuk menyesuaikan bobot. Kami menggunakan regularisasi dalam kombinasi dengan mengoptimalkan fungsi kerugian. Dengan cara itu, regularisasi mendorong bobot ke nol sementara kami pada saat yang sama mencoba mendorong bobot ke nilai yang mengoptimalkan prediksi. Aspek kedua adalah tingkat pembelajaran. Dengan tingkat belajar yang lebih kecil, kita bisa mendekati nilai yang mungkin membuat regularisasi terombang-ambing sehingga kita bisa mengabaikannya

Kent Munthe Caspersen

1

Mengapa dL2(w)/dw'modul' dan bukan hanya linier?

mrgloom

1

@ mrgloom dL2(w)/dwdapat dibaca sebagai perubahan L2(w)per perubahan berat. Karena L2-regularisasi mengkuadratkan bobot, L2(w)akan berubah lebih banyak untuk perubahan bobot yang sama ketika kita memiliki bobot yang lebih tinggi. Inilah sebabnya mengapa fungsinya cembung saat Anda memplotnya. Namun untuk L1, perubahan L1(w)per perubahan bobot adalah sama terlepas dari apa bobot Anda - ini mengarah ke fungsi linier.

Kent Munthe Caspersen

1

@KentMuntheCaspersen Penjelasan luar biasa! Terima kasih atas grafik dan upaya yang Anda investasikan untuk menjadikan ini intuitif!

layser

15

Gambar 3.11 dari Elemen Pembelajaran Statistik oleh Hastie, Tibshirani, dan Friedman sangat ilustratif:

$\hat{\beta}$ $\beta_1$ $\beta_2$ $\hat{\beta}$ $L_1$ $L_2$ ) regresi masing-masing. Secara heuristik, untuk setiap metode, kami mencari persimpangan elips merah dan wilayah biru karena tujuannya adalah untuk meminimalkan fungsi kesalahan sambil mempertahankan kelayakan.

$L_1$

Zhanxiong
sumber

16

Ilustrasi ini tidak terlalu meyakinkan tanpa informasi tambahan. Misalnya mengapa kontur kesalahan harus ditempatkan di tempat mereka pada gambar?

wabbit

@HrishikeshGanu Akhirnya punya waktu untuk mengedit posting.

Zhanxiong

Semua kontur akan memiliki bentuk yang sama ...

kjetil b halvorsen

1

\hat{β}

$\hat{\beta}$

β_{1}

$\beta_1$

β_{2}

$\beta_2$

β_{1} = β_{2}

$\beta_1 = \beta_2$

13

$\hat \beta$ $\hat \beta$ $\ell_1 (\hat \beta) < t$ $\ell_2 (\hat \beta) < t$

$\ell_1$ $\ell_1$ $\{ x : \ell_1(x) \le 1\}$

Secara lebih umum, buku ini adalah referensi yang bagus untuk subjek ini: penjelasan yang bagus dan ilustrasi yang bagus.

Elvis
sumber

3

Saya pikir paragraf kedua Anda adalah kunci ... setidaknya untuk intuisi saya: "bola" l1 lebih seperti berlian yang spikey di sepanjang sumbu, yang berarti bahwa sebuah hyperplane yang tertabrak untuk memukulnya cenderung memiliki angka nol pada kapak.

Wayne

2

\hat{β}

$\hat \beta$

ℓ_{1}

$\ell_1$

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

ℓ_{2}

$\ell_2$

\hat{β}

$\hat \beta$

3

Buku itu bagus, tetapi tidak pernah menjelaskan dari mana asalnya dan matematika di baliknya.

user13985

2

Jawaban non matematis sederhana adalah:

Untuk L2: Istilah penalti dikuadratkan , jadi mengkuadratkan nilai yang kecil akan membuatnya lebih kecil. Kami tidak harus membuatnya nol untuk mencapai tujuan kami untuk mendapatkan kesalahan kuadrat minimum, kami akan mendapatkannya sebelum itu.

Untuk L1: Istilah hukuman adalah absolut , kita mungkin perlu pergi ke nol karena tidak ada katalis untuk membuat lebih kecil .

Ini sudut pandang saya.

Arnab Mukherjee
sumber

Tidak terlalu meyakinkan bagi saya.

Tyler 十三将士归玉门

2

Gambar menunjukkan bentuk area yang ditempati oleh L1 dan L2 Norm. Gambar kedua terdiri dari berbagai kontur Gradient Descent untuk berbagai masalah regresi. Di semua plot kontur, amati lingkaran merah yang memotong Ridge atau L2 Norm. persimpangan tidak pada sumbu. Lingkaran hitam di semua kontur mewakili lingkaran yang memotong Norma L1 atau Lasso. Itu berpotongan relatif dekat dengan sumbu. Ini menghasilkan koefisien untuk 0 dan karenanya pemilihan fitur. Oleh karena itu norma L1 membuat model jarang.

Penjelasan lebih rinci di tautan berikut: Klik Posting di Menuju Ilmu Data

solver149
sumber

ℓ_{2}

$\ell_2$

β_{1} = 1

$\beta_1 = 1$

β_{1} = 0

$\beta_1 = 0$

L_{1}

$L_1$

Mengapa norma L1 untuk model jarang

Jawaban: