Apakah regularisasi Tikhonov sama dengan Ridge Regression?

Regularisasi Tikhonov dan regresi ridge adalah istilah yang sering digunakan seolah-olah mereka identik. Apakah mungkin untuk menentukan dengan tepat apa perbedaannya?

regression terminology regularization ridge-regression tikhonov-regularization Carl
sumber

Jawaban:

Regulatorisasi Tikhonov adalah perangkat yang lebih besar daripada regresi ridge. Ini adalah usaha saya untuk menjelaskan dengan tepat bagaimana mereka berbeda.

Misalkan untuk matriks $A$ dan vektor diketahui $b$ , kami ingin mencari vektor $\mathbf{x}$ sedemikian rupa sehingga:

$A\mathbf{x}=\mathbf{b}$ .

Pendekatan standar adalah regresi linear kuadrat terkecil biasa. Namun, jika tidak ada $x$ memenuhi persamaan atau lebih dari satu yang dilakukan $x$ — itu adalah solusinya tidak unik — masalahnya dikatakan sebagai posisi yang salah. Kuadrat terkecil biasa berupaya meminimalkan jumlah residu kuadrat, yang dapat ditulis dengan ringkas sebagai:

$\|A\mathbf{x}-\mathbf{b}\|^2$

dimana $\left \| \cdot \right \|$ adalah norma Euclidean. Dalam notasi matriks, solusinya, dilambangkan dengan $\hat{x}$ , diberikan oleh:

$\hat{x} = (A^{T}A)^{-1}A^{T}\mathbf{b}$

Regularisasi Tikhonov meminimalkan

$\|A\mathbf{x}-\mathbf{b}\|^2+ \|\Gamma \mathbf{x}\|^2$

untuk beberapa matriks Tikhonov yang dipilih, . Solusi bentuk matriks eksplisit, dilambangkan dengan , diberikan oleh: $\Gamma$ $\hat{x}$

$\hat{x} = (A^{T}A+ \Gamma^{T} \Gamma )^{-1}A^{T}{b}$

Efek regularisasi dapat bervariasi melalui skala matriks . Untuk ini dikurangi menjadi solusi kuadrat terkecil yang tidak diregulasi asalkan (A ^T A) ⁻¹ ada. $\Gamma$ $\Gamma = 0$

Biasanya untuk regresi ridge , dijelaskan dua keberangkatan dari regularisasi Tikhonov. Pertama, matriks Tikhonov digantikan oleh kelipatan dari matriks identitas

$\Gamma= \alpha I$ ,

memberikan preferensi untuk solusi dengan norma yang lebih kecil, yaitu norma . Kemudian menjadi tuju $L_2$ $\Gamma^{T} \Gamma$ $\alpha^2 I$

$\hat{x} = (A^{T}A+ \alpha^2 I )^{-1}A^{T}{b}$

Akhirnya, untuk regresi ridge, biasanya diasumsikan bahwa variabel diskalakan sehingga memiliki bentuk matriks korelasi. dan adalah vektor korelasi antara variabel dan , yang mengarah ke $A$ $X^{T}X$ $X^{T}b$ $x$ $b$

$\hat{x} = (X^{T}X+ \alpha^2 I )^{-1}X^{T}{b}$

Perhatikan dalam bentuk ini, pengali Lagrange biasanya diganti oleh , , atau simbol lain tetapi tetap menggunakan properti $\alpha^2$ $k$ $\lambda$ $\lambda\geq0$

Dalam merumuskan jawaban ini, saya mengakui meminjam secara bebas dari Wikipedia dan dari estimasi Ridge bobot fungsi transfer

Carl
sumber

(+1) Untuk kelengkapan, perlu disebutkan bahwa dalam aplikasi praktis sistem yang diatur biasanya akan ditulis dalam bentuk , yang kemudian dapat diselesaikan sebagai masalah linear kuadrat terkecil standar (misalnya melalui QR / SVD on , tanpa secara eksplisit membentuk persamaan normal).

[\begin{matrix} A \\ α Γ \end{matrix}] x \approx [\begin{matrix} b \\ 0 \end{matrix}] ⟹ \hat{A} x \approx \hat{b}

$\begin{bmatrix}A\\ \alpha \Gamma\\ \end{bmatrix}x\approx\begin{bmatrix}b\\0\\ \end{bmatrix}\implies \hat{A}x\approx \hat{b}$

\hat{A}

$\hat{A}$

GeoMatt22

Poin bagus. Saya akan menambahkannya nanti.

Carl

Apakah smoothing splines dan metode ekspansi dasar serupa merupakan bagian dari regularisasi Tikhonov?

Sycorax berkata Reinstate Monica

@ Scorax Saya tidak berharap begitu. Misalnya, B-spline akan menetapkan turunan pada nol di titik akhir, dan mencocokkan turunan dan besaran spline ke data di antara titik akhir. Regulator Tikhonov akan meminimalkan kesalahan parameter apa pun yang Anda kirim dengan mengubah kemiringan kecocokan. Jadi, hal yang berbeda.

Carl

Juga, regularisasi Tychonov memiliki formulasi dalam dimensi arbitrer untuk ruang Hilbert (dipisahkan?)

AIM_BLB

Carl telah memberikan jawaban menyeluruh yang dengan baik menjelaskan perbedaan matematika antara regularisasi Tikhonov vs regresi ridge. Terinspirasi oleh diskusi sejarah di sini , saya pikir mungkin berguna untuk menambahkan contoh singkat yang menunjukkan bagaimana kerangka kerja Tikhonov yang lebih umum dapat bermanfaat.

Pertama, catatan singkat tentang konteks. Regresi Ridge muncul dalam statistik, dan sementara regularisasi sekarang tersebar luas dalam statistik & pembelajaran mesin, pendekatan Tikhonov awalnya dimotivasi oleh masalah terbalik yang timbul dalam asimilasi data berbasis model (terutama dalam geofisika ). Contoh yang disederhanakan di bawah ini adalah dalam kategori ini (versi yang lebih kompleks digunakan untuk rekonstruksi paleoklimat ).

Bayangkan kita ingin merekonstruksi suhu di masa lalu, berdasarkan pengukuran saat ini . Dalam model kami yang disederhanakan, kami akan menganggap bahwa suhu berevolusi sesuai dengan persamaan panas dalam 1D dengan kondisi batas periodik Pendekatan perbedaan hingga sederhana (eksplisit) yang sederhana mengarah ke model diskrit Secara matematis, matriks evolusi tidak dapat dibalik, jadi kita memiliki Namun secara numerik $u[x,t=0]$ $u[x,t=T]$

u_{t} = u_{x x}

$u_t = u_{xx}$

u [x + L, t] = u [x, t]

$u[x+L,t] = u[x,t]$

\frac{Δ u}{Δ t} = \frac{L u}{Δ x^{2}} ⟹ u_{t + 1} = {A u}_{t}

$\frac{\Delta\mathbf{u}}{\Delta{t}} = \frac{\mathbf{Lu}}{\Delta{x^2}} \implies \mathbf{u}_{t+1} = \mathbf{Au}_t$

A

$\mathbf{A}$

u_{t} = {A^{- 1} u}_{t + 1}

$\mathbf{u}_t = \mathbf{A^{-1}u}_{t+1}$ , kesulitan akan muncul jika interval waktu terlalu panjang.

T

$T$

Regularisasi Tikhonov dapat memecahkan masalah ini dengan menyelesaikan yang menambahkan penalti kecil atas kekasaran .

\begin{aligned} {A u}_{t} & \approx u_{t + 1} \\ ω {L u}_{t} & \approx 0 \end{aligned}

$\begin{align} \mathbf{Au}_t &\approx \mathbf{u}_{t+1} \\ \omega\mathbf{Lu}_t &\approx \mathbf{0} \end{align}$

ω^{2} ≪ 1

$\omega^2\ll{1}$

u_{x x}

$u_{xx}$

Di bawah ini adalah perbandingan hasil:

Kita dapat melihat bahwa suhu asli memiliki profil yang halus, yang diperhalus lebih jauh dengan difusi untuk menghasilkan . Inversi langsung gagal memulihkan , dan solusi menunjukkan artefak "kotak-kotak" yang kuat . Namun solusi Tikhonov dapat memulihkan dengan akurasi yang cukup baik. $u_0$ $u_\mathsf{fwd}$ $u_0$ $u_\mathsf{inv}$ $u_\mathsf{reg}$ $u_0$

Perhatikan bahwa dalam contoh ini, regresi ridge akan selalu mendorong solusi kami menuju "zaman es" (yaitu suhu nol seragam). Regresi Tikhonov memberi kita batasan sebelumnya yang lebih fleksibel berbasis fisik : Di sini penalti kita pada dasarnya mengatakan rekonstruksi seharusnya hanya perlahan-lahan berkembang, yaitu . $\mathbf{u}$ $u_t\approx{0}$

Contohnya kode Matlab di bawah ini (bisa dijalankan online di sini ).

% Tikhonov Regularization Example: Inverse Heat Equation
n=15; t=2e1; w=1e-2; % grid size, # time steps, regularization
L=toeplitz(sparse([-2,1,zeros(1,n-3),1]/2)); % laplacian (periodic BCs)
A=(speye(n)+L)^t; % forward operator (diffusion)
x=(0:n-1)'; u0=sin(2*pi*x/n); % initial condition (periodic & smooth)
ufwd=A*u0; % forward model
uinv=A\ufwd; % inverse model
ureg=[A;w*L]\[ufwd;zeros(n,1)]; % regularized inverse
plot(x,u0,'k.-',x,ufwd,'k:',x,uinv,'r.:',x,ureg,'ro');
set(legend('u_0','u_{fwd}','u_{inv}','u_{reg}'),'box','off');

GeoMatt22
sumber

Semua pujian diterima dengan hangat. Perlu disebutkan, bahkan jika sedikit keluar dari topik, bahwa regularisasi Tikhonov dan regresi ridge dapat digunakan untuk menargetkan target regresi fisik. (+1)

Carl

@Carl ini memang benar. Kita bahkan bisa menggunakannya di sini , dengan mengalihkan variabel ke ! (Secara umum, setiap masalah Tikhonov dengan matriks Tikhonov yang dapat dibalik dapat dikonversi menjadi regresi ridge.)

v = L u

$v=Lu$

GeoMatt22