Relaksasi Lagrangian dalam konteks regresi ridge

15

Dalam "Elemen Pembelajaran Statistik" (edisi ke-2), hal63, penulis memberikan dua formulasi berikut dari masalah regresi ridge:

β^rsayadge=Argminβ{saya=1N(ysaya-β0-j=1halxsayajβj)2+λj=1halβj2}

dan

β^rsayadge=Argminβsaya=1N(ysaya-β0-j=1halxsayajβj)2, tunduk pada j=1halβj2t.

Dikatakan bahwa keduanya setara, dan bahwa ada korespondensi satu-ke-satu antara parameter dan .λt

Tampaknya formulasi pertama adalah relaksasi Lagrangian yang kedua. Namun, saya tidak pernah memiliki pemahaman intuitif tentang bagaimana atau mengapa relaksasi Lagrangian bekerja.

Adakah cara sederhana untuk menunjukkan bahwa kedua formulasi itu memang setara? Jika saya harus memilih, saya lebih suka intuisi daripada kekakuan.

Terima kasih.

NPE
sumber
Jika Anda hanya menginginkan penjelasan intuitif, buka 1.03.26 dari video ini (hingga akhir), ada penjelasan intuitif tentang bagaimana kendala terkait dengan fungsi tujuan.
user603

Jawaban:

3

Korespondensi dapat paling mudah ditampilkan menggunakan Teorema Amplop .

Pertama, Lagrangian standar akan memiliki istilah . Ini tidak akan memengaruhi masalah maksimalisasi jika kita hanya memperlakukan seperti yang diberikan, jadi Hastie dkk menjatuhkannya.λtλ

Sekarang, jika Anda membedakan Lagrangian lengkap sehubungan dengan , Teorema Envelope mengatakan Anda dapat mengabaikan efek tidak langsung dari sampai , karena Anda sedang maksimal. Yang tersisa adalah multipler Lagrange dari .ttβλt

Tapi apa artinya ini secara intuitif? Karena batasan mengikat maksimal, turunan dari Lagrangian, dievaluasi pada maksimum, adalah sama dengan deriviate tujuan semula. Oleh karena itu pengali Lagrange memberikan harga bayangan - nilai dalam hal tujuan - untuk mengendurkan kendala dengan meningkatkan .t

Saya menganggap ini adalah korespondensi Hastie et al. mengacu pada.

Tristan
sumber