Menurut referensi Buku 1 , Buku 2 dan kertas .
Telah disebutkan bahwa ada kesetaraan antara regresi yang diatur (Ridge, LASSO dan Elastic Net) dan rumus kendala mereka.
Saya juga telah melihat Cross Validated 1 , dan Cross Validated 2 , tetapi saya tidak bisa melihat jawaban yang jelas menunjukkan bahwa kesetaraan atau logika.
Pertanyaanku adalah
Bagaimana cara menunjukkan kesetaraan itu menggunakan Karush – Kuhn – Tucker (KKT)?
Rumus berikut adalah untuk regresi Ridge.
CATATAN
Pertanyaan ini bukan pekerjaan rumah. Ini hanya untuk meningkatkan pemahaman saya tentang topik ini.
MEMPERBARUI
Saya belum punya ide.
Jawaban:
Jawaban yang lebih teknis adalah karena masalah optimasi terbatas dapat ditulis dalam hal pengganda Lagrange. Secara khusus, Lagrangian yang terkait dengan masalah optimisasi terbatas diberikan olehL(β)=argminβ⎧⎩⎨∑i=1N(yi−∑j=1pxijβj)2⎫⎭⎬+μ{(1−α)∑j=1p|βj|+α∑j=1pβ2j} μ β
Sunting: Seperti yang diminta, saya akan memasukkan analisis yang lebih konkret untuk regresi ridge, karena ia menangkap ide-ide utama sambil menghindari keharusan berurusan dengan teknis yang terkait dengan non-pembeda dari penalti LASSO. Ingat, kami sedang memecahkan masalah optimisasi (dalam notasi matriks):
Biarkan menjadi solusi OLS (yaitu ketika tidak ada kendala). Maka saya akan fokus pada kasus di mana(asalkan ada) karena sebaliknya, kendala tidak menarik karena tidak mengikat. Lagrangian untuk masalah ini dapat ditulis Kemudian dibedakan , kita mendapatkan kondisi urutan pertama: yang hanya merupakan sistem persamaan linear dan karenanya dapat diselesaikan:βOLS M<∣∣∣∣βOLS∣∣∣∣ L(β)=argminβ{∑i=1Nyi−xTiβ}−μ⋅||β||2≤M 0=−2(∑i=1Nyixi+(∑i=1NxixTi+μI)β) β^=(∑i=1NxixTi+μI)−1(∑i=1Nyixi)
untuk beberapa pilihan pengganda . Pengganda kemudian hanya dipilih untuk membuat kendala menjadi benar, yaitu kita perluμ
sumber
Ada analisis hebat dari stats_model dalam jawabannya .
Saya mencoba menjawab pertanyaan serupa di The Proof of Equivalent Formula of Ridge Regression .
Saya akan mengambil lebih banyak pendekatan Hand On untuk kasus ini.t λ
Mari kita coba melihat pemetaan antara dan dalam 2 model.
Seperti yang saya tulis dan dapat dilihat dari stats_model dalam analisisnya pemetaan tergantung pada data. Karenanya kita akan memilih realisasi spesifik dari masalah. Namun kode dan sketsa solusi akan menambah intuisi pada apa yang terjadi.
Kami akan membandingkan 2 model berikut:
Mari kita asumsikan bahwa menjadi solusi dari model yang diregulasi dan menjadi solusi dari model yang dibatasi.x^ x~
Kami sedang melihat pemetaan dari ke sedemikian rupa sehingga . Melihat solusi saya untuk Solver untuk Norm Constraint Least Squares orang dapat melihat bahwa menyelesaikan Model Constrained melibatkan penyelesaian Model Regularized dan menemukan yang cocok dengan (Kode aktual disajikan dalam Least Squares dengan Euclidean ( ) Batasan Norma ).t λ x = ~ x λ t L 2x^=x~
λ t L2
Jadi kami akan menjalankan solver yang sama dan untuk setiap kami akan menampilkan optimal .t λ
Solver pada dasarnya memecahkan:
Jadi di sini adalah Matriks kami:
Dan inilah vektor kami:
Ini pemetaannya:
Seperti dapat dilihat di atas, untuk nilai parameter yang cukup tinggi seperti yang diharapkan.t λ=0
Memperbesar ke kisaran [0, 10]:
Kode lengkap tersedia di Repositori GitHub Q401212 StackExchange Cross saya .
sumber