Dalam "Elemen Pembelajaran Statistik" (edisi ke-2), hal63, penulis memberikan dua formulasi berikut dari masalah regresi ridge:
dan
Dikatakan bahwa keduanya setara, dan bahwa ada korespondensi satu-ke-satu antara parameter dan .
Tampaknya formulasi pertama adalah relaksasi Lagrangian yang kedua. Namun, saya tidak pernah memiliki pemahaman intuitif tentang bagaimana atau mengapa relaksasi Lagrangian bekerja.
Adakah cara sederhana untuk menunjukkan bahwa kedua formulasi itu memang setara? Jika saya harus memilih, saya lebih suka intuisi daripada kekakuan.
Terima kasih.
Jawaban:
Korespondensi dapat paling mudah ditampilkan menggunakan Teorema Amplop .
Pertama, Lagrangian standar akan memiliki istilah . Ini tidak akan memengaruhi masalah maksimalisasi jika kita hanya memperlakukan seperti yang diberikan, jadi Hastie dkk menjatuhkannya.λ ⋅ t λ
Sekarang, jika Anda membedakan Lagrangian lengkap sehubungan dengan , Teorema Envelope mengatakan Anda dapat mengabaikan efek tidak langsung dari sampai , karena Anda sedang maksimal. Yang tersisa adalah multipler Lagrange dari .t t β λ ⋅ t
Tapi apa artinya ini secara intuitif? Karena batasan mengikat maksimal, turunan dari Lagrangian, dievaluasi pada maksimum, adalah sama dengan deriviate tujuan semula. Oleh karena itu pengali Lagrange memberikan harga bayangan - nilai dalam hal tujuan - untuk mengendurkan kendala dengan meningkatkan .t
Saya menganggap ini adalah korespondensi Hastie et al. mengacu pada.
sumber