Bukti koefisien menyusut menggunakan regresi ridge melalui "dekomposisi spektral"

20

Saya telah memahami bagaimana regresi ridge mengecilkan koefisien terhadap nol secara geometris. Selain itu saya tahu bagaimana membuktikannya dalam "Kasus Orthonormal" yang istimewa, tetapi saya bingung bagaimana cara kerjanya dalam kasus umum melalui "Dekomposisi Spektral."

jeza
sumber
4
Anda telah menyatakan Anda bingung, tetapi apa pertanyaan Anda?
whuber

Jawaban:

30

Pertanyaannya muncul untuk meminta demonstrasi bahwa Regresi Ridge menyusut estimasi koefisien ke nol, menggunakan dekomposisi spektral. Dekomposisi spektral dapat dipahami sebagai konsekuensi mudah dari Dekomposisi Nilai Singular (SVD). Karenanya, posting ini dimulai dengan SVD. Ini menjelaskannya secara sederhana dan kemudian menggambarkannya dengan aplikasi penting. Kemudian memberikan demonstrasi yang diminta (aljabar). (Aljabar, tentu saja, identik dengan demonstrasi geometrik; ia hanya ditulis dalam bahasa yang berbeda.)

Sumber asli jawaban ini dapat ditemukan di catatan kursus regresi saya . Versi ini memperbaiki beberapa kesalahan kecil.


Apa itu SVD

Setiap n×p matriks X , dengan pn , dapat ditulis

X=UDV
di mana
  1. U adalahmatriksn×p .

    • Kolom memiliki panjang 1 .U1
    • Kolom-kolom adalah saling ortogonal.U
    • Mereka disebut komponen utama dari .X
  2. adalah p × p matriks.Vp×p

    • Kolom memiliki panjang 1 .V1
    • Kolom-kolom saling ortogonal.V
    • Merek ini sebuah rotasi dari R p .VRp
  3. adalahdiagonal p × p matriks.D p×p

    • Elemen-elemen diagonal tidak negatif. Ini adalah nilai-nilai singular dari X .d11,d22,,dppX
    • Jika diinginkan, kami dapat memesannya dari yang terbesar hingga yang terkecil.

Kriteria (1) dan (2) menyatakan bahwa dan V adalah matriks ortonormal . Mereka dapat diringkas dengan rapi berdasarkan kondisinyaUV

UU=1p, VV=1p.

Sebagai konsekuensinya (bahwa mewakili rotasi), V V = 1 p juga. Ini akan digunakan dalam derivasi Ridge Regression di bawah ini.VVV=1p

Apa manfaatnya bagi kita

Itu bisa menyederhanakan formula. Ini berfungsi baik secara aljabar dan konseptual. Berikut ini beberapa contohnya.

Persamaan Normal

Pertimbangkan regresi mana, seperti biasa, ε terdistribusi secara independen dan identik menurut hukum yang tidak memiliki ekspektasi nol dan varian terbatas σ 2 . Solusi kuadrat terkecil melalui normal Persamaan adalah β = ( X ' X ) - 1 X ' y . Menerapkan SVD dan menyederhanakan kekacauan aljabar yang dihasilkan (yang mudah) memberikan wawasan yang bagus:y=Xβ+εεσ2

β^=(XX)1Xy.

(XX)1X=((UDV)(UDV))1(UDV)=(VDUUDV)1(VDU)=VD2VVDU=VD1U.

Satu-satunya perbedaan antara ini dan adalah bahwa kebalikan dari elemen D digunakan! Dengan kata lain, "persamaan" y = X β diselesaikan dengan "membalikkan" X : inversi semu ini mengurungkan rotasi U dan V (hanya dengan memindahkannya) dan membatalkan perkalian (diwakili oleh DX=VDUDy=XβXUVD ) secara terpisah di setiap prinsipal arah.

Untuk referensi di masa mendatang, pemberitahuan bahwa "diputar" perkiraan β adalah kombinasi linear dari "diputar" tanggapan U ' y . Koefisien invers dari (positif) elemen diagonal D , sama untuk d - 1 i iVβ^UyDdii1 .

Koefisien estimasi koefisien

Ingat bahwa kovarians dari perkiraan adalah Menggunakan SVD, ini menjadi σ 2 ( V D 2 V ) - 1 = σ 2 V D - 2 V . Dengan kata lain, kovarians bertindak seperti itu dari k orthogonal variabel, masing-masing dengan varians d 2 i i

Cov(β^)=σ2(XX)1.
σ2(VD2V)1=σ2VD2V.
k dii2, Yang telah diputar di Rk .

Matriks Hat

Matriks topi adalah Dengan menggunakan hasil sebelumnya kita dapat menulis ulang sebagai H = ( U D V ) ( V D - 1 U ) = U U .

H=X(XX)1X.
H=(UDV)(VD1U)=UU.
Sederhana!

Analisis eigen (dekomposisi spektral)

XX=VDUUDV=VD2V
XX=UDVVDU=UD2U,
  • XXXX
  • VXX
  • UXX

SVD dapat mendiagnosis dan menyelesaikan masalah collinearity.

Mendekati para regresi

UDVUy

Regresi Punggung

XyXλ>0

β^R=(XX+λ)-1Xy=(VD2V+λ1hal)-1VDUy=(VD2V+λVV)-1VDUy=(V(D2+λ)V)-1VDUy=V(D2+λ)-1VVDUy=V(D2+λ)-1DUy.

β^D-1=D-2D(D2+λ)-1DD2/(D2+λ)λ>0


Hasil ini harus dipahami dalam arti agak halus yang disinggung sebelumnya: diputarVβ^RUydsayasaya-1dsayasaya2/(dsayasaya2+λ)λβ^R

dsayasaya-1

whuber
sumber
1
@ Glen_b Itu poin yang bagus: Saya harus eksplisit tentang fraksi apa yang saya pertimbangkan! Saya akan memperbaikinya.
whuber
1
UU=1halU1. (2)VV=1p1=1VV=1halVV-1(V-1)(V-1)=1halV-1=VVV=(V)V=1hal
1
@Vimal Terima kasih atas saran yang bagus. Saya sekarang telah memasukkan penjelasan di bagian "Persamaan Normal" di mana model regresi diperkenalkan.
whuber
1
X
VDU=X=X=UDV.
U=VX
1
y^