KKT versus formulasi regresi laso tanpa kendala

Regresi dihukum L1 (alias laso) disajikan dalam dua formulasi. Biarkan dua fungsi objektif menjadi

Q_{1} = \frac{1}{2} | | Y - X β | |_{2}^{2} Q_{2} = \frac{1}{2} | | Y - X β | |_{2}^{2} + λ | | β | |_{1} .

$Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1.$ Kemudian dua formulasi yang berbeda adalah

{argmin}_{β} Q_{1}

$\text{argmin}_\beta \; Q_1$ tunduk

| | β | |_{1} \leq t,

$||\beta||_1 \leq t,$ dan, ekuivalen dengan

{argmin}_{β} Q_{2} .

$\text{argmin}_\beta \; Q_2.$ Menggunakan kondisi Karush-Kuhn-Tucker (KKT), mudah untuk melihat bagaimana kondisi stasioneritas untuk formulasi pertama adalah setara dengan mengambil gradien formulasi kedua dan menetapkannya sama dengan 0. Apa yang tidak dapat saya temukan, atau mencari tahu , adalah bagaimana kondisi kelonggaran komplementer untuk formulasi pertama,

λ (| | β | |_{1} - t) = 0

$\lambda\left(||\beta||_1 - t\right) = 0$ , dijamin akan dipenuhi oleh solusi untuk formulasi kedua.

regression lasso penalized Goodepic
sumber

Jawaban:

Kedua formulasi itu sama dalam arti bahwa untuk setiap nilai $t$ dalam formulasi pertama, terdapat nilai $\lambda$ untuk formulasi kedua sehingga kedua formulasi tersebut memiliki minimalizer sama $\beta$ .

Inilah pembenarannya:

Pertimbangkan formulasi laso: Biarkan minimizer menjadidan biarkan. Klaim saya adalah bahwa jika Anda menetapkandalam formulasi pertama, maka solusi dari formulasi pertama juga akan menjadi. Inilah buktinya:

f (β) = \frac{1}{2} | | Y - X β | |_{2}^{2} + λ | | β | |_{1}

$f(\beta)=\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1$

β^{*}

$\beta^*$

b = | | β^{*} | |_{1}

$b=||\beta^*||_1$

t = b

$t=b$

β^{*}

$\beta^*$

Pertimbangkan formulasi pertama Jika mungkin membiarkan formulasi kedua ini memiliki solusi sehingga(perhatikan tanda kurang dari tanda). Maka mudah untuk melihat bahwa

min \frac{1}{2} | | Y - X β | |_{2}^{2} s.t. | | β | |_{1} \leq b

$\min \frac{1}{2}||Y - X\beta||_2^2 \text{ s.t.} ||\beta||_1\leq b$

\hat{β}

$\hat{\beta}$

| | \hat{β} | |_{1} < | | β^{*} | |_{1} = b

$||\hat{\beta}||_1<||\beta^*||_1=b$

bertentangan dengan fakta bahwa

adalah solusi untuk laso. Dengan demikian, solusi untuk formulasi pertama juga

f (\hat{β}) < f (β^{*})

$f(\hat{\beta})<f(\beta^*)$

β^{*}

$\beta^*$

β^{*}

$\beta^*$

Karena , kondisi kelonggaran komplementer terpenuhi pada titik solusi . $t=b$ $\beta^*$

Jadi, diberi formulasi lasso dengan , Anda membangun sebuah formulasi dibatasi menggunakan sama dengan nilai dari norma solusi laso. Sebaliknya, diberikan formulasi terbatas dengan , Anda menemukan sehingga solusi untuk laso akan sama dengan solusi formulasi dibatasi. $\lambda$ $t$ $l_1$ $t$ $\lambda$

(Jika Anda tahu tentang subgradien, Anda dapat menemukan ini dengan menyelesaikan persamaan , di mana $\lambda$ $X^T(y-X\beta^*)=\lambda z^*$ $z^* \in \partial ||\beta^*||_1)$

elexhobby
sumber

Luar biasa. Begitu Anda melihat solusinya, Anda selalu merasa bodoh karena tidak sampai di sana sendiri. Saya berasumsi Anda maksud, dalam menemukan kontradiksi, misalkan kita menemukan

sehingga

\hat{β}

$\hat{\beta}$

| | \hat{β} | |_{1} < | | β^{*} | |_{1} = b

$||\hat{\beta}||_1 < ||\beta^*||_1 = b$

goodepic

Pertimbangkan jawaban flaggin sebagai benar

bdeonovic

dapat Anda menguraikan mengapa

f (\hat{β}) < f (β^{*})

$f(\hat{\beta}) < f(\beta^*)$

goofd

Ini membuktikan bahwa solusi untuk formulasi pertama juga harus memiliki norma l1 dari b. Bagaimana ini membuktikan bahwa kedua solusi itu memang sama?

broncoAbierto

Selain itu, Lasso tidak selalu memiliki solusi yang unik, sehingga kita tidak dapat merujuk pada minimizer. arxiv.org/pdf/1206.0313.pdf . Kita bisa, bagaimanapun, merujuk ke set dari minimizers dan menunjukkan bahwa beberapa

harus milik set itu.

\hat{β} \neq β^{*}

$\hat{\beta} \neq \beta^*$

broncoAbierto

Saya pikir ide elexhobby untuk bukti ini bagus, tapi saya pikir itu tidak sepenuhnya benar.

$\hat{\beta}$ $\|\hat{\beta}\| < \|\beta^*\|$ $\|\hat{\beta}\| = \|\beta^*\|$ $\hat{\beta} = \beta^*$

Saya menyarankan, sebagai gantinya, bahwa kami melanjutkan sebagai berikut:

Untuk kenyamanan, mari kita masing-masing menunjukkan oleh dan formulasi pertama dan kedua. Mari kita asumsikan bahwa memiliki solusi unik, , dengan . Biarkan punya solusi, . Kemudian, kita memiliki(itu tidak bisa lebih besar karena kendala) dan karena itu . Jika maka bukan solusi untuk , yang bertentangan dengan asumsi kami. Jika $P_1$ $P_2$ $P_2$ $\beta^*$ $\|\beta^*\|=b$ $P_1$ $\hat{\beta} \neq \beta^*$ $\|\hat{\beta}\| \leq \|\beta^*\|$ $f(\hat{\beta}) \leq f(\beta^*)$ $f(\hat{\beta}) < f(\beta^*)$ $\beta^*$ $P_2$ $f(\hat{\beta}) = f(\beta^*)$ lalu , karena kami menganggap solusinya unik. $\hat{\beta} = \beta^*$

Namun demikian, mungkin Lasso memiliki beberapa solusi. Oleh lemma 1 dari arxiv.org/pdf/1206.0313.pdf kita tahu bahwa semua solusi ini memiliki -norm yang sama (dan tentu saja nilai minimum yang sama). Kami menetapkan norma itu sebagai kendala untuk dan melanjutkan. $\ell 1$ $P_1$

Mari kita dilambangkan dengan himpunan solusi untuk , dengan . Biarkan memiliki solusi, . Kemudian, kita memiliki dan karena . Jika untuk beberapa (dan karenanya untuk semuanya) maka , yang bertentangan dengan asumsi kami. Jika untuk beberapa maka bukan sekumpulan solusi untuk $S$ $P_2$ $\|\beta\|=b \mbox{ } \forall \beta \in S$ $P_1$ $\hat{\beta} \notin S$ $\|\hat{\beta}\| \leq \|\beta\| \forall \beta \in S$ $f(\hat{\beta}) \leq f(\beta) \forall \beta \in S$ $f(\hat{\beta}) = f(\beta)$ $\beta \in S$ $\hat{\beta} \in S$ $f(\hat{\beta}) < f(\beta)$ $\beta \in S$ $S$ $P_2$ . Oleh karena itu, setiap solusi untuk ada di , yaitu solusi apa pun untuk juga merupakan solusi untuk . Akan tetap membuktikan bahwa pelengkap juga berlaku. $P_1$ $S$ $P_1$ $P_2$

broncoAbierto
sumber