Batas estimator regresi ridge regresi “unit-variance” ketika

Pertimbangkan regresi ridge dengan kendala tambahan mengharuskan memiliki satuan jumlah kuadrat (ekuivalen, satuan varians); jika diperlukan, orang dapat berasumsi bahwa memiliki satuan jumlah kuadrat juga: $\hat{\mathbf y}$ $\mathbf y$

{\hat{β}}_{λ}^{*} = \arg min {‖ y - X β ‖^{2} + λ ‖ β ‖^{2}} s.t. ‖ X β ‖^{2} = 1.

$\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1.$

Berapa batas $\hat{\boldsymbol\beta}_\lambda^*$ ketika $\lambda\to\infty$ ?

Berikut adalah beberapa pernyataan yang saya yakini benar:

Ketika $\lambda=0$ , ada solusi eksplisit yang rapi: ambil penaksir OLS $\hat{\boldsymbol\beta}_0=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf y$ dan menormalkannya untuk memenuhi batasan (orang dapat melihat ini dengan menambahkan pengali Lagrange dan membedakan):
${\hat{β}}_{0}^{*} = {\hat{β}}_{0} / ‖ X {\hat{β}}_{0} ‖ .$ $\hat{\boldsymbol\beta}_0^* = \hat{\boldsymbol\beta}_0 \big/ \|\mathbf X\hat{\boldsymbol\beta}_0\|.$
Secara umum, solusinya adalah
${\hat{β}}_{λ}^{*} = ((1 + μ) X^{⊤} X + λ I)^{- 1} X^{⊤} y with μ needed to satisfy the constraint .$ $\hat{\boldsymbol\beta}_\lambda^*=\big((1+\mu)\mathbf X^\top \mathbf X + \lambda \mathbf I\big)^{-1}\mathbf X^\top \mathbf y\:\:\text{with $\mu$ needed to satisfy the constraint}.$ Saya tidak melihat solusi formulir tertutup ketika $\lambda >0$ . Tampaknya solusinya setara dengan estimator RR biasa dengan beberapa $\lambda^*$ dinormalisasi untuk memenuhi kendala, tapi saya tidak melihat rumus tertutup untuk $\lambda^*$ .
Saat $\lambda\to \infty$ , penduga RR biasa
${\hat{β}}_{λ} = (X^{⊤} X + λ I)^{- 1} X^{⊤} y$ $\hat{\boldsymbol\beta}_\lambda=(\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1}\mathbf X^\top \mathbf y$ jelas menyatu dengan nol, tetapi arahnya $\hat{\boldsymbol\beta}_\lambda \big/ \|\hat{\boldsymbol\beta}_\lambda\|$ konvergen ke arah $\mathbf X^\top \mathbf y$ , alias komponen partial squares (kuadrat) parsial pertama.

Pernyataan (2) dan (3) bersama-sama membuat saya berpikir bahwa mungkin $\hat{\boldsymbol\beta}_\lambda^*$ juga menyatu dengan $\mathbf X^\top \mathbf y$ , tetapi saya tidak yakin apakah ini benar dan saya belum berhasil meyakinkan diri sendiri.

pca regularization ridge-regression partial-least-squares constrained-regression amuba kata Reinstate Monica
sumber

Jawaban:

Penafsiran geometris

Pengukur yang dijelaskan dalam pertanyaan adalah ekuivalen pengali Lagrange dari masalah pengoptimalan berikut:

minimize f (β) subject to g (β) \leq t and h (β) = 1

$\text{minimize $f(\beta)$ subject to $g(\beta) \leq t$ and $h(\beta) = 1$ }$

\begin{aligned} f (β) & = ‖ y - X β ‖^{2} \\ g (β) & = ‖ β ‖^{2} \\ h (β) & = ‖ X β ‖^{2} \end{aligned}

$\begin{align} f(\beta) &= \lVert y-X\beta \lVert^2 \\ g(\beta) &= \lVert \beta \lVert^2\\ h(\beta) &= \lVert X\beta \lVert^2 \end{align}$

yang dapat dilihat, secara geometris, sebagai menemukan ellipsoid terkecil yang menyentuh persimpangan bola dan ellipsoid $f(\beta)=\text{RSS }$ $g(\beta) = t$ $h(\beta)=1$

Perbandingan dengan tampilan regresi ridge standar

Dalam hal tampilan geometris, ini mengubah tampilan lama (untuk regresi ridge standar) dari titik di mana sebuah bola (kesalahan) dan bola ( ) menyentuh $\|\beta\|^2=t$ . Ke tampilan baru di mana kita mencari titik di mana spheroid (kesalahan) menyentuh kurva (norma beta dibatasi oleh ) $\|X\beta\|^2=1$ . Bola satu (biru pada gambar kiri) berubah menjadi angka dimensi yang lebih rendah karena persimpangan dengan batasan . $\|X\beta\|=1$

Dalam kasus dua dimensi ini mudah dilihat.

Ketika kita menyetel parameter maka kita mengubah panjang relatif bola biru / merah atau ukuran relatif dari dan (Dalam teori pengganda Lagrangian mungkin ada cara yang rapi untuk secara formal dan persis menggambarkan bahwa ini berarti bahwa untuk setiap sebagai fungsi , atau terbalik, adalah fungsi yang monoton. Tapi saya bayangkan Anda dapat melihat secara intuitif bahwa jumlah residu kuadrat hanya meningkat ketika kita mengurangi .) $t$ $f(\beta)$ $g(\beta)$ $t$ $\lambda$ $||\beta||$

Solusi untuk adalah ketika Anda berdebat tentang garis antara 0 dan $\beta_\lambda$ $\lambda=0$ $\beta_{LS}$

Solusi untuk adalah (memang seperti yang Anda komentari) di pemuatan komponen utama pertama. Ini adalah titik di mana adalah yang terkecil untuk . Ini adalah titik di mana lingkaran menyentuh ellipse dalam satu titik. $\beta_\lambda$ $\lambda \to \infty$ $\lVert \beta \rVert^2$ $\lVert \beta X \rVert^2 = 1$ $\lVert \beta \rVert^2=t$ $|X\beta|=1$

Dalam tampilan 2-d ini, tepi persimpangan bola dan spheroid adalah poin. Dalam banyak dimensi ini adalah kurva $\lVert \beta \rVert^2 =t$ $\lVert \beta X \rVert^2 = 1$

(Saya membayangkan pertama bahwa kurva ini akan menjadi elips tetapi lebih rumit. Anda dapat membayangkan ellipsoid berpotongan dengan bola karena beberapa semacam ellipsoid frustum tetapi dengan tepian yang bukan elips sederhana) $\lVert X \beta \rVert^2 = 1$ $\lVert \beta \rVert^2 \leq t$

Mengenai batas $\lambda \to \infty$

Pada awalnya (suntingan sebelumnya) saya menulis bahwa akan ada beberapa pembatasan atas yang semua solusinya sama (dan mereka berada di titik ). Tapi ini bukan masalahnya $\lambda_{lim}$ $\beta^*_\infty$

Pertimbangkan optimasi sebagai algoritma LARS atau gradient descent. Jika untuk setiap titik ada arah di mana kita dapat mengubah sehingga hukuman istilah meningkat kurang dari istilah SSR berkurang maka Anda tidak dalam minimum . $\beta$ $\beta$ $|\beta|^2$ $|y-X\beta|^2$

Dalam regresi punggungan normal Anda memiliki kemiringan nol (dalam semua arah) untuk pada titik . Jadi untuk semua yang terbatas solusinya tidak dapat (karena langkah sangat kecil dapat dilakukan untuk mengurangi jumlah residu kuadrat tanpa meningkatkan penalti). $|\beta|^2$ $\beta=0$ $\lambda$ $\beta = 0$
Untuk LASSO ini tidak sama karena: hukumannya adalah (jadi tidak kuadratik dengan kemiringan nol). Karena itu LASSO akan memiliki beberapa nilai pembatas atas yang semua solusinya nol karena istilah penalti (dikalikan dengan ) akan meningkat lebih dari jumlah residu kuadrat berkurang. $\lvert \beta \rvert_1$ $\lambda_{lim}$ $\lambda$
Untuk punggungan terbatas Anda mendapatkan sama dengan regresi punggungan biasa. Jika Anda mengubah mulai dari maka perubahan ini akan menjadi tegak lurus dengan ( adalah tegak lurus terhadap permukaan elips ) dan dapat diubah dengan langkah sangat kecil tanpa mengubah jangka waktu penalti tetapi mengurangi jumlah residu kuadrat. Jadi untuk setiap terbatas titik tidak bisa menjadi solusi. $\beta$ $\beta^*_\infty$ $\beta$ $\beta^*_\infty$ $|X\beta|=1$ $\beta$ $\lambda$ $\beta^*_\infty$

Catatan lebih lanjut mengenai batas $\lambda \to \infty$

Batas regresi punggungan biasa untuk hingga tak terbatas sesuai dengan titik berbeda dalam regresi punggungan terbatas. Batas 'lama' ini sesuai dengan titik di mana sama dengan -1. Kemudian turunan dari fungsi Lagrange dalam masalah dinormalisasi $\lambda$ $\mu$

$2 (1 + μ) X^{T} X β + 2 X^{T} y + 2 λ β$ $2 (1+\mu) X^{T}X \beta + 2 X^T y + 2 \lambda \beta$ sesuai dengan solusi untuk turunan dari fungsi Lagrange dalam masalah standar

$2 X^{T} X β^{'} + 2 X^{T} y + 2 \frac{λ}{(1 + μ)} β^{'} with β^{'} = (1 + μ) β$ $2 X^{T}X \beta^\prime + 2 X^T y + 2 \frac{\lambda}{(1+\mu)} \beta^\prime \qquad \text{with $\beta^\prime = (1+\mu)\beta$}$

Ditulis oleh StackExchangeStrike

Sextus Empiricus
sumber

+1. Terima kasih banyak, ini sangat membantu! Saya perlu waktu untuk memikirkannya.

Amuba mengatakan Reinstate Monica

Layak untuk ditunjukkan bahwa ellipsoid merah dan hitam memiliki bentuk yang sama: inilah mengapa titik di mana mereka menyentuh terletak pada garis yang menghubungkan pusat-pusat mereka. Bukti grafis bagus dari poin # 1 dalam pertanyaan saya.

Amuba mengatakan Reinstate Monica

Saya mencoba untuk memahami di mana gambar Anda adalah beta yang sesuai dengan penaksir ridge dengan lambda tak terbatas, dinormalisasi untuk berbaring di elips hitam. Saya pikir itu berada di suatu tempat antara dan (menggunakan notasi saya) - dua titik yang ditandai dengan lingkaran terbuka hitam pada gambar Anda. Jadi jika kita melakukan regresi ridge dan menormalkan solusi dan meningkatkan lambda dari 0 hingga tak terbatas, mungkin membawa kita pada jalur yang sama, tetapi tidak sepenuhnya sampai PC1. Alih-alih, memasukkan batasan secara eksplisit, membuat solusi berjalan hingga PC1.

β_{0}^{*}

$\beta_0^*$

β_{\infty}^{*}

$\beta_\infty^*$

‖ X β ‖ = 1

$\|X\beta\|=1$

Amoeba berkata Reinstate Monica

+5 (Saya memulai hadiah yang dengan senang hati akan saya berikan atas jawaban Anda). Saya juga telah memposting jawaban saya sendiri karena saya melakukan beberapa derivasi aljabar dan terlalu banyak untuk menambah pertanyaan. Saya tidak yakin dengan kesimpulan Anda bahwa akan ada beberapa yang terbatas setelah itu solusinya tidak akan berubah lagi dan akan diberikan oleh PC1. Saya tidak melihatnya secara aljabar, dan saya tidak begitu mengerti argumen Anda mengapa itu harus ada. Mari kita coba mencari tahu.

λ_{lim}

$\lambda_\text{lim}$

Amoeba berkata Reinstate Monica

@amoeba, Anda benar tentang terbatas tidak ada. Saya berdebat terlalu intuitif dan melompat dengan cepat dari kondisi tertentu untuk regresi ridge reguler ke regresi ridge dibatasi. RR biasa memiliki kemiringan nol (dalam semua arah) untuk pada titik . Saya pikir (karena ) Anda tidak mendapatkan ini dengan regresi terbatas. Namun karena terbatas pada ellipsoid Anda tidak dapat 'memindahkan' ke semua arah.

λ_{lim}

$\lambda_{\lim}$

| β |^{2}

$|\beta|^2$

β = 0

$\beta = 0$

β_{\infty}^{*} \neq 0

$\beta^*_\infty \neq 0$

β

$\beta$

| X β | = 1

$|X\beta| =1$

β

$\beta$

Sextus Empiricus

Ini adalah pasangan aljabar dari jawaban geometris @ Martijn yang indah.

Pertama-tama, batas ketika sangat mudah diperoleh: dalam batas, istilah pertama dalam fungsi kerugian menjadi diabaikan dan dengan demikian dapat diabaikan. Masalah optimisasi menjadi yang merupakan komponen utama pertama dari

{\hat{β}}_{λ}^{*} = \arg min {‖ y - X β ‖^{2} + λ ‖ β ‖^{2}} s.t. ‖ X β ‖^{2} = 1

$\hat{\boldsymbol\beta}_\lambda^* = \arg\min\Big\{\|\mathbf y - \mathbf X \boldsymbol \beta\|^2+\lambda\|\boldsymbol\beta\|^2\Big\} \:\:\text{s.t.}\:\: \|\mathbf X \boldsymbol\beta\|^2=1$

λ \to \infty

$\lambda\to\infty$

lim_{λ \to \infty} {\hat{β}}_{λ}^{*} = {\hat{β}}_{\infty}^{*} = \underset{‖ X β ‖^{2} = 1}{a r g m i n} ‖ β ‖^{2} \sim \underset{‖ β ‖^{2} = 1}{a r g m a x} ‖ X β ‖^{2},

$\lim_{\lambda\to\infty}\hat{\boldsymbol\beta}_\lambda^* = \hat{\boldsymbol\beta}_\infty^* = \operatorname*{arg\,min}_{\|\mathbf X \boldsymbol\beta\|^2=1}\|\boldsymbol\beta\|^2 \sim \operatorname*{arg\,max}_{\| \boldsymbol\beta\|^2=1}\|\mathbf X\boldsymbol\beta\|^2,$

X

$\mathbf X$ (diskalakan dengan tepat). Ini menjawab pertanyaan.

Sekarang mari kita pertimbangkan solusi untuk setiap nilai yang saya maksudkan pada poin # 2 dari pertanyaan saya. Menambahkan ke fungsi kerugian, pengali Lagrange dan membedakan, kita memperoleh $\lambda$ $\mu(\|\mathbf X\boldsymbol\beta\|^2-1)$

{\hat{β}}_{λ}^{*} = ((1 + μ) X^{⊤} X + λ I)^{- 1} X^{⊤} y with μ needed to satisfy the constraint .

$\hat{\boldsymbol\beta}_\lambda^*=\big((1+\mu)\mathbf X^\top \mathbf X + \lambda \mathbf I\big)^{-1}\mathbf X^\top \mathbf y\:\:\text{with $\mu$ needed to satisfy the constraint}.$

Bagaimana solusi ini berperilaku ketika tumbuh dari nol hingga tak terbatas? $\lambda$

Ketika , kami memperoleh versi skala dari solusi OLS: $\lambda=0$
${\hat{β}}_{0}^{*} \sim {\hat{β}}_{0} .$ $\hat{\boldsymbol\beta}_0^* \sim \hat{\boldsymbol\beta}_0.$
Untuk nilai positif tapi kecil , solusinya adalah versi skala beberapa penaksir punggungan: $\lambda$
${\hat{β}}_{λ}^{*} \sim {\hat{β}}_{λ^{*}} .$ $\hat{\boldsymbol\beta}_\lambda^* \sim \hat{\boldsymbol\beta}_{\lambda^*}.$
Ketika, nilai diperlukan untuk memenuhi batasan adalah . Ini berarti bahwa solusinya adalah versi skala dari komponen PLS pertama (yang berarti bahwa dari penaksir ridge yang sesuai adalah ): $\lambda=\|\mathbf X\mathbf X^\top \mathbf y\|$ $(1+\mu)$ $0$ $\lambda^*$ $\infty$
${\hat{β}}_{‖ X X^{⊤} y ‖}^{*} \sim X^{⊤} y .$ $\hat{\boldsymbol\beta}_{\|\mathbf X\mathbf X^\top \mathbf y\|}^* \sim \mathbf X^\top \mathbf y.$
Ketika menjadi lebih besar dari itu, istilah menjadi negatif. Mulai sekarang, solusinya adalah versi skala dari penaksir pseudo-bubungan dengan parameter regularisasi negatif ( bubungan negatif ). Dalam hal arah, kita sekarang melewati regresi ridge dengan lambda tak terbatas. $\lambda$ $(1+\mu)$
Ketika , istilah akan menjadi nol (atau berbeda dengan infinity) kecuali mana adalah nilai singular terbesar dari . Ini akan membuat terbatas dan sebanding dengan sumbu utama pertama . Kita perlu mengatur untuk memenuhi batasan tersebut. Dengan demikian, kami memperoleh $\lambda\to\infty$ $\big((1+\mu)\mathbf X^\top \mathbf X + \lambda \mathbf I\big)^{-1}$ $\mu = -\lambda/ s^2_\mathrm{max} + \alpha$ $s_\mathrm{max}$ $\mathbf X=\mathbf{USV}^\top$ $\hat{\boldsymbol\beta}_\lambda^*$ $\mathbf V_1$ $\mu = -\lambda/ s^2_\mathrm{max} + \mathbf U_1^\top \mathbf y -1$
${\hat{β}}_{\infty}^{*} \sim V_{1} .$ $\hat{\boldsymbol\beta}_\infty^* \sim \mathbf V_1.$

Secara keseluruhan, kami melihat bahwa masalah minimisasi terbatas ini mencakup versi unit-varians dari OLS, RR, PLS, dan PCA pada spektrum berikut:

OLS \to RR \to PLS \to negative RR \to PCA

$\boxed{\text{OLS} \to \text{RR} \to \text{PLS} \to \text{negative RR} \to \text{PCA}}$

Ini tampaknya setara dengan kerangka kerja kemometrik yang tidak jelas (?) Yang disebut "regresi kontinum" (lihat https://scholar.google.de/scholar?q="continuum+regress " , khususnya Stone & Brooks 1990, Sundberg 1993, Björkström & Sundberg 1999, dll.) Yang memungkinkan penyatuan yang sama dengan memaksimalkan kriteria ad hocIni jelas menghasilkan OLS diskala ketika , PLS saat , PCA saat , dan dapat ditunjukkan menghasilkan RR skala untuk

T = {corr}^{2} (y, X β) \cdot {Var}^{γ} (X β) s.t. ‖ β ‖ = 1.

$\mathcal T = \operatorname{corr}^2(\mathbf y, \mathbf X \boldsymbol\beta)\cdot \operatorname{Var}^\gamma(\mathbf X\boldsymbol\beta) \;\;\text{s.t.}\;\;\|\boldsymbol\beta\|=1.$

γ = 0

$\gamma=0$

γ = 1

$\gamma=1$

γ \to \infty

$\gamma\to\infty$

0 < γ < 1

$0<\gamma<1$

1 < γ < \infty

$1<\gamma<\infty$ , lihat Sundberg 1993.

Meskipun memiliki sedikit pengalaman dengan RR / PLS / PCA / etc, saya harus mengakui bahwa saya belum pernah mendengar tentang "regresi kontinum" sebelumnya. Saya juga harus mengatakan bahwa saya tidak suka istilah ini.

Skema yang saya lakukan berdasarkan pada @ Martijn:

Pembaruan: Gambar diperbarui dengan jalur punggungan negatif, terima kasih banyak kepada @Martijn karena menyarankan bagaimana tampilannya. Lihat jawaban saya dalam Memahami regresi ridge negatif untuk lebih jelasnya.

amuba kata Reinstate Monica
sumber

"Regresi berkelanjutan" tampaknya menjadi salah satu kategori teknik mengejutkan yang luas yang bertujuan menyatukan PLS dan PCA dalam kerangka kerja umum. Saya belum pernah mendengar tentang hal itu, secara kebetulan, sampai meneliti punggung negatif (saya memberikan tautan ke Bjorkstron & Sundberg, 1999, makalah di komentar pertama pertanyaan punggung negatif yang Anda tautkan), meskipun tampaknya agak banyak dibahas dalam literatur kemometri. Pasti ada beberapa alasan historis mengapa ia tampaknya berkembang dalam isolasi dari bidang statistik lain. (1/3)

Ryan Simmons

Satu makalah yang mungkin ingin Anda baca adalah de Jong et al. (2001) . Formulasi "PLS kanonik" mereka tampaknya sekilas setara dengan milik Anda, meskipun saya akui saya belum membandingkan matematika secara seksama (mereka juga memberikan ulasan tentang beberapa generalisasi PLS-PCA lain dalam nada yang sama). Tetapi mungkin wawasan untuk melihat bagaimana mereka telah menjelaskan masalahnya. (2/3)

Ryan Simmons

Jika tautan itu mati, kutipan lengkapnya adalah: Sijmen de Jong, Barry M. Wise, N. Lawrence Ricker. "Kuadrat terkecil parsial Canonical dan regresi daya kontinum." Jurnal Chemometrics, 2001; 15: 85-100. doi.org/10.1002/… (3/3)

Ryan Simmons

ah, ok, lalu dan buka tak terbatas tetapi rasio mereka tetap . Dalam kasus apa pun, jalur regresi ridge negatif harus berada di sektor (negatif) antara vektor PLS dan PCA sedemikian rupa sehingga proyeksi mereka ke elipsadalah antara titik-titik PLS dan PCA. (norma menuju ke infinity masuk akal ketika pergi ke infinity juga, sehingga jalan berlanjut ke kanan bawah, awalnya bersinggungan dengan, negatif, PLS dan akhirnya ke PCA)

λ^{*}

$\lambda^*$

1 + μ^{*}

$1+\mu^*$

\pm

$\pm$

s_{m a x}^{2}

$s_{max}^2$

| X β = 1 |

$|X\beta=1|$

μ

$\mu$

Sextus Empiricus

Itu akan menambah visualisasi. Saya membayangkan tiga titik jalur RR saat ini (di mana lingkaran dan sentuhan ellipsoid) berlanjut ke bawah ke kanan dan akhirnya, pada infinity, lingkaran dan ellipsoid harus 'sentuhan' di arah dari para tempat di mana lingkaran menyentuh ellipsoid

| β |^{2} = t_{\infty}

$|\beta|^2=t_{\infty}$

| X (β - \hat{β}) |^{2} = R S S

$|X (\beta - \hat\beta)|^2 =RSS$

| β |^{2} = t_{p c a}

$|\beta|^2=t_{pca}$

| X β |^{2} = 1

$|X \beta|^2 =1$

Sextus Empiricus

Batas estimator regresi ridge regresi “unit-variance” ketika

Jawaban:

Penafsiran geometris

Perbandingan dengan tampilan regresi ridge standar

Mengenai batasλ→∞λ→∞\lambda \to \infty

Catatan lebih lanjut mengenai batasλ→∞λ→∞\lambda \to \infty

Mengenai batas $\lambda \to \infty$

Catatan lebih lanjut mengenai batas $\lambda \to \infty$