KKT versus formulasi regresi laso tanpa kendala

20

Regresi dihukum L1 (alias laso) disajikan dalam dua formulasi. Biarkan dua fungsi objektif menjadi

Q1=12||YXβ||22Q2=12||YXβ||22+λ||β||1.
Kemudian dua formulasi yang berbeda adalah
argminβQ1
tunduk
||β||1t,
dan, ekuivalen dengan
argminβQ2.
Menggunakan kondisi Karush-Kuhn-Tucker (KKT), mudah untuk melihat bagaimana kondisi stasioneritas untuk formulasi pertama adalah setara dengan mengambil gradien formulasi kedua dan menetapkannya sama dengan 0. Apa yang tidak dapat saya temukan, atau mencari tahu , adalah bagaimana kondisi kelonggaran komplementer untuk formulasi pertama,λ(||β||1t)=0 , dijamin akan dipenuhi oleh solusi untuk formulasi kedua.
Goodepic
sumber

Jawaban:

16

Kedua formulasi itu sama dalam arti bahwa untuk setiap nilai t dalam formulasi pertama, terdapat nilai λ untuk formulasi kedua sehingga kedua formulasi tersebut memiliki minimalizer sama β.

Inilah pembenarannya:

Pertimbangkan formulasi laso: Biarkan minimizer menjadiβdan biarkanb=| | β| | 1. Klaim saya adalah bahwa jika Anda menetapkant=bdalam formulasi pertama, maka solusi dari formulasi pertama juga akan menjadiβ. Inilah buktinya:

f(β)=12||YXβ||22+λ||β||1
βb=||β||1t=bβ

Pertimbangkan formulasi pertama Jika mungkin membiarkan formulasi kedua ini memiliki solusi β sehingga| | ß | | 1<| | β| | 1=b(perhatikan tanda kurang dari tanda). Maka mudah untuk melihat bahwaf( β )<f(β

min12||YXβ||22 s.t.||β||1b
β^||β^||1<||β||1=b bertentangan dengan fakta bahwa β adalah solusi untuk laso. Dengan demikian, solusi untuk formulasi pertama juga β .f(β^)<f(β)ββ

Karena , kondisi kelonggaran komplementer terpenuhi pada titik solusi β .t=bβ

Jadi, diberi formulasi lasso dengan , Anda membangun sebuah formulasi dibatasi menggunakan t sama dengan nilai dari l 1 norma solusi laso. Sebaliknya, diberikan formulasi terbatas dengan t , Anda menemukan λ sehingga solusi untuk laso akan sama dengan solusi formulasi dibatasi.λtl1tλ

(Jika Anda tahu tentang subgradien, Anda dapat menemukan ini dengan menyelesaikan persamaan X T ( y - X β ) = λ z , di mana z | | β | | 1 )λXT(yXβ)=λzz||β||1)

elexhobby
sumber
1
Luar biasa. Begitu Anda melihat solusinya, Anda selalu merasa bodoh karena tidak sampai di sana sendiri. Saya berasumsi Anda maksud, dalam menemukan kontradiksi, misalkan kita menemukan β sehingga | | ß | | 1 < | | β | | 1 = b ? β^||β^||1<||β||1=b
goodepic
Pertimbangkan jawaban flaggin sebagai benar
bdeonovic
2
dapat Anda menguraikan mengapa f(β^)<f(β)
goofd
Ini membuktikan bahwa solusi untuk formulasi pertama juga harus memiliki norma l1 dari b. Bagaimana ini membuktikan bahwa kedua solusi itu memang sama?
broncoAbierto
1
Selain itu, Lasso tidak selalu memiliki solusi yang unik, sehingga kita tidak dapat merujuk pada minimizer. arxiv.org/pdf/1206.0313.pdf . Kita bisa, bagaimanapun, merujuk ke set dari minimizers dan menunjukkan bahwa beberapa ßß * harus milik set itu. β^β
broncoAbierto
3

Saya pikir ide elexhobby untuk bukti ini bagus, tapi saya pikir itu tidak sepenuhnya benar.

β^β= β *β =β^<ββ^=ββ^=β

Saya menyarankan, sebagai gantinya, bahwa kami melanjutkan sebagai berikut:

Untuk kenyamanan, mari kita masing-masing menunjukkan oleh dan formulasi pertama dan kedua. Mari kita asumsikan bahwa memiliki solusi unik, , dengan . Biarkan punya solusi, . Kemudian, kita memiliki(itu tidak bisa lebih besar karena kendala) dan karena itu . Jika maka bukan solusi untuk , yang bertentangan dengan asumsi kami. JikaP 2 P 2 β *β *= b P 1 ββ *ββ *f ( β ) P1P2P2ββ=bP1β^ββ^βf ( β ) < f ( β ) β P 2 ff(β^)f(β)f(β^)<f(β)βP2β = β *f(β^)=f(β)lalu , karena kami menganggap solusinya unik.β^=β

Namun demikian, mungkin Lasso memiliki beberapa solusi. Oleh lemma 1 dari arxiv.org/pdf/1206.0313.pdf kita tahu bahwa semua solusi ini memiliki -norm yang sama (dan tentu saja nilai minimum yang sama). Kami menetapkan norma itu sebagai kendala untuk dan melanjutkan.P 11P1

Mari kita dilambangkan dengan himpunan solusi untuk , dengan . Biarkan memiliki solusi, . Kemudian, kita memiliki dan karena . Jika untuk beberapa (dan karenanya untuk semuanya) maka , yang bertentangan dengan asumsi kami. Jika untuk beberapa maka bukan sekumpulan solusi untukP 2β = b β S P 1 βS ββ β S f ( β ) SP2β=b βSP1β^Sβ^ββSf(β^)f(β)βSf(β^)=f(β)βSβ^SβSSP2P1SP1P2f(β^)<f(β)βSSP2 . Oleh karena itu, setiap solusi untuk ada di , yaitu solusi apa pun untuk juga merupakan solusi untuk . Akan tetap membuktikan bahwa pelengkap juga berlaku.P1SP1P2

broncoAbierto
sumber