Katakanlah kita sedang mengoptimalkan model dengan parameter , dengan meminimalkan beberapa kriteria tunduk pada kendala pada besarnya vektor parameter (misalnya untuk menerapkan pendekatan minimisasi risiko struktural dengan membangun serangkaian model kerumitan yang semakin meningkat), kita perlu menyelesaikan:θ⃗ f(θ⃗ )
minθ⃗ f(θ⃗ )s.t.∥θ⃗ ∥2<C
Lagrangian untuk masalah ini adalah (peringatan: Saya pikir, ini hari yang panjang ... ;-)
Λ(θ⃗ ,λ)=f(θ⃗ )+λ∥θ⃗ ∥2−λC.
Jadi dapat dengan mudah dilihat bahwa fungsi biaya yang diatur terkait erat dengan masalah optimisasi terbatas dengan parameter regularisasi terkait dengan konstanta yang mengatur kendala ( ), dan pada dasarnya adalah pengali Lagrange. λC
Ini menggambarkan mengapa mis. Regresi ridge menerapkan minimalisasi risiko struktural: Regularisasi setara dengan menempatkan batasan pada besarnya vektor bobot dan jika maka setiap model yang dapat dibuat sambil mematuhi batasan yangC1>C2
∥θ⃗ ∥2<C2
juga akan tersedia di bawah batasan
∥θ⃗ ∥2<C1 .
Karenanya mengurangi menghasilkan urutan ruang hipotesis yang semakin kompleks.λ