Mengapa kita hanya melihat regularisasi

Saya hanya ingin tahu mengapa biasanya hanya ada regularisasi norma dan . Apakah ada bukti mengapa ini lebih baik? $L_1$ $L_2$

lasso regularization ridge-regression pengguna10024395
sumber

(+1) Saya belum menyelidiki pertanyaan ini secara khusus, tetapi pengalaman dengan situasi yang serupa menunjukkan mungkin ada jawaban kualitatif yang bagus: semua norma yang dapat dibedakan kedua pada titik asal akan setara secara lokal satu sama lain, di mana norma adalah standar. Semua norma lain tidak akan dapat dibedakan pada asal dan secara kualitatif mereproduksi perilaku mereka. Itu meliputi keseluruhan. Akibatnya, kombinasi linear dari norma dan mendekati setiap norma ke urutan kedua di titik asal - dan inilah yang paling penting dalam regresi tanpa menghilangkan residu.

L^{2}

$L^2$

L^{1}

$L^1$

L^{1}

$L^1$

L^{2}

$L^2$

whuber

Ya: ini pada dasarnya adalah teorema Taylor.

whuber

Premis dari pertanyaan ini salah: -norms lain digunakan, meskipun jauh lebih jarang.

ℓ_{p}

$\ell_p$

Firebug

Kombinasi linear yang disebut @whuber sering disebut jaring elastis .

Luca Citi

Juga, di antara norma Lp, juga mendapat banyak jarak tempuh.

L^{\infty}

$L^\infty$

user795305

Jawaban:

Selain komentar @ whuber (*).

Buku karya Hastie et al. Pembelajaran statistik dengan Sparsity membahas hal ini. Mereka juga menggunakan apa yang disebut "norma" (tanda kutip karena ini bukan norma dalam arti matematis yang ketat (**)), yang hanya menghitung jumlah komponen bukan nol dari suatu vektor. $L_0$

Dalam hal itu norma digunakan untuk pemilihan variabel, tetapi bersama-sama dengan norma dengan tidak cembung, sehingga sulit untuk dioptimalkan. Mereka berpendapat (argumen yang saya pikir berasal dari Donohoe dalam penginderaan terkompresi) bahwa norma , yaitu, laso, adalah terbaik dari "norma" ("relaksasi cembung terdekat dari pemilihan subset terbaik"). Buku itu juga merujuk beberapa penggunaan norma lainnya . Bola unit di -norm dengan terlihat seperti ini $L_0$ $l_q$ $q<1$ $L_1$ $L_0$ $L_q$ $l_q$ $q<1$

(gambar dari wikipedia) sementara penjelasan gambar mengapa laso dapat memberikan pemilihan variabel

Gambar ini dari buku referensi di atas. Anda dapat melihat bahwa dalam kasing laso (bola satuan yang digambar sebagai intan), kemungkinan besar kontur ellipsoidal (jumlah kuadrat) pertama-tama akan menyentuh berlian di salah satu sudut. Dalam kasus non-cembung (angka bola unit pertama) bahkan lebih mungkin bahwa sentuhan pertama antara ellipsoid dan bola unit akan berada di salah satu sudut, sehingga kasing akan menekankan pemilihan variabel lebih dari laso.

Jika Anda mencoba "laso dengan penalti non-cembung" di google ini, Anda akan mendapatkan banyak makalah yang melakukan masalah seperti laso dengan penalti non-cembung seperti dengan . $l_q$ $q < 1$

(*) Untuk kelengkapan saya salin dalam komentar whuber di sini:

Saya belum menyelidiki pertanyaan ini secara khusus, tetapi pengalaman dengan situasi yang serupa menunjukkan mungkin ada jawaban kualitatif yang bagus: semua norma yang dapat dibedakan kedua pada titik asal akan setara secara lokal satu sama lain, di mana norma adalah standar. Semua norma lain tidak akan dapat dibedakan pada titik asal dan secara kualitatif mereproduksi perilaku mereka. Itu mencakup keseluruhan. Akibatnya, kombinasi linear dari norma dan mendekati norma apa pun ke urutan kedua di titik asal - dan inilah yang paling penting dalam regresi tanpa menghilangkan residu. $L_2$ $L_1$ $L_1$ $L_2$

(**) The - "norma" tidak memiliki homogenitas, yang merupakan salah satu aksioma untuk norma. Homogenitas berarti untuk bahwa. $l_0$ $\alpha \ge 0$ $\| \alpha x \| = \alpha \| x \|$

kjetil b halvorsen
sumber

@kjetilbhalvorsen Terima kasih atas jawaban mendalam Anda. Saya memilih superskrip yang tidak biasa agar konsisten dengan pertanyaan dan judulnya. Tentu saja Anda dapat menuliskannya dengan cara yang Anda sukai.

Ferdi

@kjetilbhalvorsen Bisakah Anda sedikit memperluas komentar Whuber? Diketahui bahwa norma tidak dapat dibedakan pada asalnya (pertimbangkan , misalnya). Tidak jelas juga apa yang dimaksud dengan 'kesetaraan lokal' norma. Referensi diperlukan, untuk sedikitnya.

L^{2}

$L^2$

x \mapsto | x |

$x \mapsto |x|$

Olivier

@Olivier -norm dapat dibedakan dari asalnya, Anda berpikir tentang -norm.

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

Firebug

@ Firebug No. Saya berpikir tentang norma dalam 1 dimensi, yang ada sama dengan norma . Apakah saya melewatkan sesuatu?

L^{2}

$L^2$

L^{1}

$L^1$

Olivier

@ Olivier Oh, Anda sebenarnya benar. Saya salah paham, karena kuadrat sebenarnya digunakan, dan itu dapat dibedakan di mana-mana.

ℓ_{2}

$\ell_2$

Firebug

Saya pikir jawaban untuk pertanyaan sangat tergantung pada bagaimana Anda mendefinisikan "lebih baik." Jika saya menafsirkan dengan benar, Anda ingin tahu mengapa norma-norma ini muncul begitu sering dibandingkan dengan opsi lain. Dalam hal ini, jawabannya adalah kesederhanaan. Intuisi di balik regularisasi adalah bahwa saya memiliki beberapa vektor, dan saya ingin vektor itu menjadi "kecil" dalam arti tertentu. Bagaimana Anda menggambarkan ukuran vektor? Anda punya pilihan:

Apakah Anda menghitung berapa banyak elemen yang dimilikinya ? $(L_0)$
Apakah Anda menambahkan semua elemen ? $(L_1)$
Apakah Anda mengukur seberapa "panjang" "panah" itu ? $(L_2)$
Apakah Anda menggunakan ukuran elemen terbesar ? $(L_\infty)$

Anda dapat menggunakan norma-norma alternatif seperti , tetapi mereka tidak memiliki interpretasi fisik yang ramah seperti yang di atas. $L_3$

Dalam daftar ini, norma memiliki solusi analitik bentuk tertutup yang bagus untuk hal-hal seperti masalah kuadrat terkecil. Sebelum Anda memiliki kekuatan komputasi yang tidak terbatas, orang tidak akan bisa membuat banyak kemajuan sebaliknya. Saya berspekulasi bahwa visual "panjang panah" juga lebih menarik bagi orang daripada ukuran ukuran lainnya. Walaupun norma yang Anda pilih untuk dampak regularisasi pada jenis residu yang Anda dapatkan dengan solusi optimal, saya tidak berpikir kebanyakan orang a) menyadarinya, atau b) mempertimbangkannya secara mendalam ketika merumuskan masalah mereka. Pada titik ini, saya berharap kebanyakan orang tetap menggunakan karena ini adalah "apa yang dilakukan semua orang." $L_2$ $L_2$

Analogi akan menjadi fungsi eksponensial, - ini muncul secara harfiah di mana-mana dalam fisika, ekonomi, statistik, pembelajaran mesin, atau bidang lain yang digerakkan secara matematis. Saya bertanya-tanya selamanya mengapa segala sesuatu dalam kehidupan tampaknya digambarkan oleh eksponensial, sampai saya menyadari bahwa kita manusia tidak memiliki banyak trik di lengan kita. Eksponensial memiliki sifat yang sangat berguna untuk melakukan aljabar dan kalkulus, dan akhirnya menjadi fungsi nomor 1 di kotak alat matematika mana pun ketika mencoba memodelkan sesuatu di dunia nyata. Bisa jadi hal-hal seperti waktu dekoherensi "lebih baik" dijelaskan oleh polinomial tingkat tinggi, tetapi itu relatif lebih sulit untuk dilakukan aljabar, dan pada akhirnya yang penting adalah perusahaan Anda menghasilkan uang - eksponensial adalah lebih sederhana dan cukup baik. $e^x$

Jika tidak, pilihan norma memiliki efek yang sangat subyektif, dan terserah Anda sebagai orang yang menyatakan masalah untuk menentukan apa yang Anda sukai dalam solusi optimal. Apakah Anda lebih peduli bahwa semua komponen dalam vektor solusi Anda sama besarnya, atau bahwa ukuran komponen terbesar sekecil mungkin? Pilihan itu akan tergantung pada masalah spesifik yang Anda selesaikan.

Panda Merah
sumber

Alasan utama untuk melihat sebagian besar norma dan adalah bahwa mereka mencakup sebagian besar aplikasi saat ini. Sebagai contoh, norma juga disebut norma taksi , suatu norma penghubung kisi bujursangkar, termasuk norma nilai absolut . $L_1$ $L_2$ $L_1$

$L_2$ Norma adalah, selain kuadrat terkecil, jarak Euclidean dalam -space $n$ serta norma variabel kompleks . Selain itu, regularisasi Tikhonov dan regresi ridge , yaitu, aplikasi meminimalkan , sering dianggap sebagai norma . $\|A\mathbf{x}-\mathbf{b}\|^2+ \|\Gamma \mathbf{x}\|^2$ $L_2$

Wikipedia memberikan informasi tentang ini dan norma - norma lainnya . Layak disebutkan adalah . Norma umum , norma juga disebut norma seragam . $L_0$ $L_p$ $L_\infty$

Carl
sumber