Interpretasi regularisasi ridge dalam regresi

25

Saya punya beberapa pertanyaan tentang penalti punggungan dalam konteks kuadrat terkecil:

β_{r i d g e} = (λ I_{D} + X^{'} X)^{- 1} X^{'} y

$\beta_{ridge} = (\lambda I_D + X'X)^{-1}X'y$

1) Ekspresi menunjukkan bahwa matriks kovarians X menyusut ke arah matriks diagonal, yang berarti bahwa (dengan asumsi bahwa variabel distandarisasi sebelum prosedur) korelasi antara variabel input akan diturunkan. Apakah interpretasi ini benar?

2) Jika ini adalah aplikasi penyusutan mengapa tidak diformulasikan dalam baris , dengan asumsi bahwa kita dapat membatasi lambda hingga kisaran [0,1] dengan normalisasi . $(\lambda I_D + (1-\lambda)X'X)$

3) Apa yang bisa menjadi normalisasi untuk sehingga dapat dibatasi untuk rentang standar seperti [0,1]. $\lambda$

4) Menambahkan konstanta ke diagonal akan mempengaruhi semua nilai eigen. Apakah lebih baik menyerang hanya nilai singular atau mendekati singular? Apakah ini setara dengan menerapkan PCA ke X dan mempertahankan komponen utama top-N sebelum regresi atau apakah ia memiliki nama yang berbeda (karena tidak mengubah perhitungan kovarian silang)?

5) Bisakah kita mengatur kovarians silang, atau apakah ada gunanya, yang berarti

β_{r i d g e} = (λ I_{D} + X^{'} X)^{- 1} (γ X^{'} y)

$\beta_{ridge} = (\lambda I_D + X'X)^{-1}(\gamma X'y)$

di mana kecil akan menurunkan kovarians silang. Jelas ini menurunkan semua sama, tetapi mungkin ada cara yang lebih cerdas seperti hard / soft thresholding tergantung pada nilai kovarians. $\gamma$ $\beta$

regression pca regularization ridge-regression Cagdas Ozgenc
sumber

iirc the ridge penalti berasal dari pembatasan yang , dengan cara pengali Lagrange pada fungsi tujuan MSE. LASSO sama tetapi dengansebagai gantinya. Saya menggunakan ponsel saya sehingga saya tidak dapat dengan mudah memposting derivasi saat ini. Tetapi ini adalah pertanyaan

\sum β^{2} \leq T

$\sum \beta^2 \leq T$

| β |

$|\beta|$

shadowtalker

19

Pertanyaan bagus!

Ya, ini benar sekali. Anda dapat melihat penalti ridge sebagai salah satu cara yang mungkin untuk mengatasi masalah multikolinieritas yang muncul ketika banyak prediktor berkorelasi tinggi. Memperkenalkan penalti ridge secara efektif menurunkan korelasi ini.
Saya pikir ini sebagian tradisi, sebagian fakta bahwa rumus regresi ridge seperti yang dinyatakan dalam persamaan pertama Anda mengikuti dari fungsi biaya berikut:Jika , istilah kedua dapat dihapus, dan meminimalkan istilah pertama ("kesalahan rekonstruksi") mengarah ke rumus OLS standar untuk . Mempertahankan istilah kedua mengarah ke rumus untuk . Fungsi biaya ini secara matematis sangat mudah untuk ditangani, dan ini mungkin salah satu alasan untuk memilih lambda "non-normalisasi".
$L = ‖ y - X β ‖^{2} + λ ‖ β ‖^{2} .$ $L=\| \mathbf y - \mathbf X \beta \|^2 + \lambda \|\beta\|^2.$ $\lambda=0$ $\beta$ $\beta_\mathrm{ridge}$
Salah satu cara yang memungkinkan untuk menormalkan adalah dengan menskalakannya dengan varian total , yaitu menggunakan bukannya . Ini tidak harus membatasi menjadi , tetapi akan membuatnya "tidak berdimensi" dan mungkin akan menghasilkan optimal menjadi kurang dari dalam semua kasus praktis (NB: ini hanya dugaan!). $\lambda$ $\mathrm{tr}(\mathbf X^\top \mathbf X)$ $\lambda \mathrm{tr}(\mathbf X^\top \mathbf X)$ $\lambda$ $\lambda$ $[0,1]$ $\lambda$ $1$
"Menyerang hanya nilai eigen kecil" memang memiliki nama yang terpisah dan disebut regresi komponen utama. Koneksi antara PCR dan regresi ridge adalah bahwa dalam PCR Anda secara efektif memiliki "langkah hukuman" memotong semua nilai eigen setelah angka tertentu, sedangkan regresi ridge menerapkan "penalti lunak", menghukum semua nilai eigen, dengan yang lebih kecil semakin terkena sanksi. Ini dijelaskan dengan baik dalam The Elements of Statistics Learning oleh Hastie et al. (tersedia online gratis), bagian 3.4.1. Lihat juga jawaban saya dalam Hubungan antara regresi ridge dan regresi PCA .
Saya belum pernah melihat ini dilakukan, tetapi perhatikan bahwa Anda dapat mempertimbangkan fungsi biaya dalam bentukIni menyusutkan bukan ke nol, tetapi ke beberapa nilai yang telah ditentukan sebelumnya . Jika seseorang menghitung matematika, Anda akan sampai pada optimal yang diberikan oleh yang mungkin bisa dilihat sebagai "regularisasi lintas kovarians"?
$L = ‖ y - X β ‖^{2} + λ ‖ β - β_{0} ‖^{2} .$ $L=\| \mathbf y - \mathbf X \beta \|^2 + \lambda \|\beta-\beta_0\|^2.$ $\beta$ $\beta_0$ $\beta$ $β = (X^{⊤} X + λ I)^{- 1} (X^{⊤} y + λ β_{0}),$ $\beta = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} (\mathbf X^\top \mathbf y + \lambda \beta_0),$

amuba kata Reinstate Monica
sumber

1

Bisakah Anda menjelaskan mengapa menambahkan ke berarti bahwa matriks kovarians menyusut ke arah matriks diagonal? Ini adalah pertanyaan aljabar yang murni linier.

λ I_{D}

$\lambda I_D$

X^{'} X

$X'X$

X

$X$

Heisenberg

3

@ Heisenberg, yah, adalah matriks kovarians (hingga faktor penskalaan ). Komputasi membutuhkan pembalikan matriks kovarian ini. Dalam regresi ridge, kita membalikkan sebagai gantinya, sehingga orang dapat melihat sebagai estimasi yang teratur dari matriks kovarian. Sekarang istilah adalah matriks diagonal dengan pada diagonal. Bayangkan bahwa sangat besar; maka jumlah tersebut didominasi oleh istilah diagonal , dan dengan demikian kovarians yang diregulasi menjadi semakin diagonal seiring dengan pertumbuhan .

X^{⊤} X

$X^\top X$

X

$X$

1 / N

$1/N$

β

$\beta$

X^{⊤} X + λ I

$X^\top X + \lambda I$

X^{⊤} X + λ I

$X^\top X + \lambda I$

λ I

$\lambda I$

λ

$\lambda$

λ

$\lambda$

λ I

$\lambda I$

λ

$\lambda$

Amoeba berkata Reinstate Monica

wrt Q5, Elemen Pembelajaran Statistik melihat kendala kelancaran untuk aplikasi pemrosesan gambar (PDA - halaman 447)

seanv507

10

Komentar lebih lanjut pada pertanyaan 4. Sebenarnya, regresi ridge tidak cukup efektif menangani nilai eigen kecil sementara sebagian besar meninggalkan nilai eigen besar sendirian. $X^{T}X$

Untuk melihat ini, nyatakan estimator regresi ridge dalam hal dekomposisi nilai singular , $X$

X = \sum_{i = 1}^{n} σ_{i} u_{i} v_{i}^{T}

$X=\sum_{i=1}^{n} \sigma_{i}u_{i}v_{i}^{T}$

di mana saling ortogonal dan vektor juga saling ortogonal. Di sini nilai eigen adalah , . $u_{i}$ $v_{i}$ $X^{T}X$ $\sigma_{i}^{2}$ $i=1, 2, \ldots, n$

Maka Anda bisa menunjukkan itu

β_{ridge} = \sum_{i = 1}^{n} \frac{σ_{i}^{2}}{σ_{i}^{2} + λ} \frac{1}{σ_{i}} (u_{i}^{T} y) v_{i} .

$\beta_{\mbox{ridge}}=\sum_{i=1}^{n} \frac{\sigma_{i}^{2}}{\sigma_{i}^{2}+\lambda}\frac{1}{\sigma_{i}} (u_{i}^{T}y) v_{i}.$

Sekarang, pertimbangkan "faktor filter" . Jika , maka faktor filter adalah 1, dan kami mendapatkan solusi kuadrat terkecil konvensional. Jika dan , maka faktor filter pada dasarnya adalah 1. Jika , maka faktor ini pada dasarnya adalah 0. Dengan demikian istilah yang sesuai dengan nilai eigen kecil secara efektif drop out, sementara yang sesuai dengan nilai eigen yang lebih besar dipertahankan. $\sigma_{i}^{2}/(\sigma_{i}^{2}+\lambda)$ $\lambda=0$ $\lambda > 0$ $\sigma_{i}^{2} \gg \lambda$ $\sigma_{i}^{2} \ll \lambda$

Sebagai perbandingan, regresi komponen utama hanya menggunakan faktor 1 (untuk nilai eigen yang lebih besar) atau 0 (untuk nilai eigen yang lebih kecil yang dijatuhkan) dalam rumus ini.

Brian Borchers
sumber

1

Itulah tepatnya yang saya sebutkan secara singkat dalam jawaban saya, tetapi sangat bagus untuk menjelaskannya dan didemonstrasikan secara matematis, +1.

Amoeba berkata Reinstate Monica

5

Pertanyaan 1, 2 dan 3 ditautkan. Saya suka berpikir bahwa ya, memperkenalkan hukuman Ridge dalam model regresi linear dapat diartikan sebagai penyusutan pada eigen-nilai . Untuk membuat interpretasi ini, pertama-tama kita harus membuat asumsi bahwa berpusat. Interpretasi ini berdasarkan pada kesetaraan berikut: dengan dan . Jika , maka dengan segera mengikuti bahwa . $X$ $X$

λ x + y = κ (α x + (1 - α) y),

$\lambda x + y = \kappa \left( \alpha x + (1-\alpha) y\right),$

α = \frac{λ}{1 + λ}

$\alpha=\frac{\lambda}{1+\lambda}$

κ = 1 + λ

$\kappa = 1+\lambda$

0 \leq λ < + \infty

$0 \leq \lambda < + \infty$

0 < α \leq 1

$0 < \alpha \leq 1$

Teknik yang Anda gambarkan sebagai "menyerang hanya nilai singular atau mendekati singular" juga dikenal sebagai Analisis Spektrum Singular (untuk tujuan regresi linier) (lihat Persamaan. 19), jika dengan "menyerang", maksud Anda "menghapus ". Kovarians silang tidak berubah.

Menghapus nilai singular yang rendah juga dilakukan oleh Regresi Komponen Utama . Dalam PCR, PCA dilakukan pada dan regresi linier diterapkan pada pemilihan komponen yang diperoleh. Perbedaannya dengan SSA adalah bahwa hal itu berdampak pada kovarians lintas. $X$

Vincent Guillemot
sumber

Terima kasih. Dalam kovarians PCR dengan y dihitung setelah pengurangan dimensi dilakukan, bukan? Apakah itu perbedaan antara PCR dan SSA? Gamma Anda (bukan milik saya), bagaimana Anda memilih itu sehingga alpha akan dibatasi [0,1]?

Cagdas Ozgenc

1

Maaf tentang membingungkan ini , saya menggantinya dengan .

γ

$\gamma$

κ

$\kappa$

Vincent Guillemot

Saya pikir Anda benar tentang perbedaan antara SSA dan PCR, kita harus menuliskannya untuk memastikan.

Vincent Guillemot

Interpretasi regularisasi ridge dalam regresi

Jawaban: