Menampilkan Equivalence Antara

11

Menurut referensi Buku 1 , Buku 2 dan kertas .

Telah disebutkan bahwa ada kesetaraan antara regresi yang diatur (Ridge, LASSO dan Elastic Net) dan rumus kendala mereka.

Saya juga telah melihat Cross Validated 1 , dan Cross Validated 2 , tetapi saya tidak bisa melihat jawaban yang jelas menunjukkan bahwa kesetaraan atau logika.

Pertanyaanku adalah

Bagaimana cara menunjukkan kesetaraan itu menggunakan Karush – Kuhn – Tucker (KKT)?

Rumus berikut adalah untuk regresi Ridge.

Punggung bukit

CATATAN

Pertanyaan ini bukan pekerjaan rumah. Ini hanya untuk meningkatkan pemahaman saya tentang topik ini.

MEMPERBARUI

Saya belum punya ide.

jeza
sumber
Mengapa Anda membutuhkan lebih dari 1 jawaban? Jawaban saat ini muncul untuk menjawab pertanyaan secara komprehensif. Jika Anda ingin mempelajari lebih lanjut tentang metode pengoptimalan, Convex Optimization Lieven Vandenberghe dan Stephen P. Boyd adalah tempat yang baik untuk memulai.
Sycorax berkata Reinstate Monica
@ Scorax, terima kasih atas komentar Anda dan buku yang Anda berikan kepada saya. Jawabannya tidak begitu jelas bagi saya dan saya tidak bisa meminta klarifikasi lebih lanjut. Dengan demikian, lebih dari satu jawaban dapat membuat saya melihat perspektif dan cara deskripsi yang berbeda.
jeza
@jeza, Apa yang hilang pada jawabanku?
Royi
1
Silakan ketik pertanyaan Anda sebagai teks, jangan hanya memposting foto (lihat di sini ).
gung - Reinstate Monica

Jawaban:

10

Jawaban yang lebih teknis adalah karena masalah optimasi terbatas dapat ditulis dalam hal pengganda Lagrange. Secara khusus, Lagrangian yang terkait dengan masalah optimisasi terbatas diberikan oleh

L(β)=argminβ{i=1N(yij=1pxijβj)2}+μ{(1α)j=1p|βj|+αj=1pβj2}
μβ

maxxf(x)+λg(x)
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
λt yang memecahkan masalah optimisasi luar. Ini memberi kami semacam pemetaan dari masalah optimisasi yang tidak dibatasi hingga masalah yang terbatas. Dalam pengaturan khusus Anda, karena semuanya berperilaku baik untuk regresi jaring elastis, pemetaan ini sebenarnya harus 1-1, sehingga akan berguna untuk dapat beralih di antara dua konteks ini tergantung pada mana yang lebih berguna untuk aplikasi tertentu. Secara umum, hubungan antara masalah terbatas dan tidak terbatas ini mungkin kurang berperilaku baik, tetapi mungkin masih berguna untuk memikirkan sejauh mana Anda dapat bergerak antara masalah terbatas dan tidak terbatas.

Sunting: Seperti yang diminta, saya akan memasukkan analisis yang lebih konkret untuk regresi ridge, karena ia menangkap ide-ide utama sambil menghindari keharusan berurusan dengan teknis yang terkait dengan non-pembeda dari penalti LASSO. Ingat, kami sedang memecahkan masalah optimisasi (dalam notasi matriks):

argminβ{i=1NyixiTβ}s.t.||β||2M

Biarkan menjadi solusi OLS (yaitu ketika tidak ada kendala). Maka saya akan fokus pada kasus di mana(asalkan ada) karena sebaliknya, kendala tidak menarik karena tidak mengikat. Lagrangian untuk masalah ini dapat ditulis Kemudian dibedakan , kita mendapatkan kondisi urutan pertama: yang hanya merupakan sistem persamaan linear dan karenanya dapat diselesaikan: βOLSM<||βOLS||

L(β)=argminβ{i=1NyixiTβ}μ||β||2M
0=2(i=1Nyixi+(i=1NxixiT+μI)β)
β^=(i=1NxixiT+μI)1(i=1Nyixi)
untuk beberapa pilihan pengganda . Pengganda kemudian hanya dipilih untuk membuat kendala menjadi benar, yaitu kita perluμ

((i=1NxixiT+μI)1(i=1Nyixi))T((i=1NxixiT+μI)1(i=1Nyixi))=M
yang ada sejak LHS adalah monoton di . Persamaan ini memberikan pemetaan eksplisit dari pengganda ke kendala, dengan ketika RHS ada dan Pemetaan ini sebenarnya sesuai dengan sesuatu yang sangat intuitif. The amplop Teorema mengatakan bahwaμμ(0,)M(0,||βOLS||)
limμ0M(μ)=||βOLS||
limμM(μ)=0
μ(M)bersesuaian dengan penurunan marjinal dalam kesalahan kita dapatkan dari relaksasi kecil kendala . Ini menjelaskan mengapa ketika sesuai dengan. Setelah batasannya tidak mengikat, tidak ada gunanya merilekskannya lagi, itulah sebabnya pengganda menghilang.Mμ0M||βOLS||

stats_model
sumber
dapatkah Anda memberikan kepada kami jawaban yang terperinci langkah demi langkah dengan contoh praktis jika memungkinkan.
jeza
banyak terima kasih, mengapa kamu tidak menyebutkan KKT? Saya tidak terbiasa dengan bidang ini, jadi perlakukan saya sebagai siswa sekolah menengah.
jeza
Kondisi KKT dalam kasus ini adalah generalisasi dari "kondisi orde pertama" yang saya sebutkan dengan membedakan bahasa Lagrangian dan menetapkan turunannya sama dengan 0. Karena dalam contoh ini, kendala berlaku dengan kesetaraan, kita tidak memerlukan kondisi KKT di penuh secara umum. Dalam kasus yang lebih rumit, semua yang terjadi adalah bahwa beberapa persamaan di atas menjadi ketidaksetaraan dan pengganda menjadi 0 untuk kendala menjadi tidak mengikat. Misalnya, inilah yang terjadi ketikadi atas. M>||βOLS||
stats_model
3

Ada analisis hebat dari stats_model dalam jawabannya .

Saya mencoba menjawab pertanyaan serupa di The Proof of Equivalent Formula of Ridge Regression .

Saya akan mengambil lebih banyak pendekatan Hand On untuk kasus ini.
Mari kita coba melihat pemetaan antara dan dalam 2 model.tλ

Seperti yang saya tulis dan dapat dilihat dari stats_model dalam analisisnya pemetaan tergantung pada data. Karenanya kita akan memilih realisasi spesifik dari masalah. Namun kode dan sketsa solusi akan menambah intuisi pada apa yang terjadi.

Kami akan membandingkan 2 model berikut:

The Regularized Model: argminx12Axy22+λx22

The Constrained Model: argminx12Axy22subject tox22t

Mari kita asumsikan bahwa menjadi solusi dari model yang diregulasi dan menjadi solusi dari model yang dibatasi. x^x~

Kami sedang melihat pemetaan dari ke sedemikian rupa sehingga . Melihat solusi saya untuk Solver untuk Norm Constraint Least Squares orang dapat melihat bahwa menyelesaikan Model Constrained melibatkan penyelesaian Model Regularized dan menemukan yang cocok dengan (Kode aktual disajikan dalam Least Squares dengan Euclidean ( ) Batasan Norma ).tλx = ~ x λ t L 2x^=x~
λtL2

Jadi kami akan menjalankan solver yang sama dan untuk setiap kami akan menampilkan optimal .tλ

Solver pada dasarnya memecahkan:

argλλsubject to(ATA+2λI)1ATb22t=0

Jadi di sini adalah Matriks kami:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

Dan inilah vektor kami:

vB =

    0.7087
   -1.2776
    0.0753
    1.1536
    1.2268
    1.5418

Ini pemetaannya:

masukkan deskripsi gambar di sini

Seperti dapat dilihat di atas, untuk nilai parameter yang cukup tinggi seperti yang diharapkan.tλ=0

Memperbesar ke kisaran [0, 10]:

masukkan deskripsi gambar di sini

Kode lengkap tersedia di Repositori GitHub Q401212 StackExchange Cross saya .

Royi
sumber