Saya telah memahami bagaimana regresi ridge mengecilkan koefisien terhadap nol secara geometris. Selain itu saya tahu bagaimana membuktikannya dalam "Kasus Orthonormal" yang istimewa, tetapi saya bingung bagaimana cara kerjanya dalam kasus umum melalui "Dekomposisi Spektral."
20
Jawaban:
Pertanyaannya muncul untuk meminta demonstrasi bahwa Regresi Ridge menyusut estimasi koefisien ke nol, menggunakan dekomposisi spektral. Dekomposisi spektral dapat dipahami sebagai konsekuensi mudah dari Dekomposisi Nilai Singular (SVD). Karenanya, posting ini dimulai dengan SVD. Ini menjelaskannya secara sederhana dan kemudian menggambarkannya dengan aplikasi penting. Kemudian memberikan demonstrasi yang diminta (aljabar). (Aljabar, tentu saja, identik dengan demonstrasi geometrik; ia hanya ditulis dalam bahasa yang berbeda.)
Sumber asli jawaban ini dapat ditemukan di catatan kursus regresi saya . Versi ini memperbaiki beberapa kesalahan kecil.
Apa itu SVD
Setiapn × p matriks X , dengan p ≤ n , dapat ditulis
adalah p × p matriks.V p × p
adalahdiagonal p × p matriks.D p × p
Kriteria (1) dan (2) menyatakan bahwa dan V adalah matriks ortonormal . Mereka dapat diringkas dengan rapi berdasarkan kondisinyaU V
Sebagai konsekuensinya (bahwa mewakili rotasi), V V ′ = 1 p juga. Ini akan digunakan dalam derivasi Ridge Regression di bawah ini.V VV′= 1hal
Apa manfaatnya bagi kita
Itu bisa menyederhanakan formula. Ini berfungsi baik secara aljabar dan konseptual. Berikut ini beberapa contohnya.
Persamaan Normal
Pertimbangkan regresi mana, seperti biasa, ε terdistribusi secara independen dan identik menurut hukum yang tidak memiliki ekspektasi nol dan varian terbatas σ 2 . Solusi kuadrat terkecil melalui normal Persamaan adalah β = ( X ' X ) - 1 X ' y . Menerapkan SVD dan menyederhanakan kekacauan aljabar yang dihasilkan (yang mudah) memberikan wawasan yang bagus:y= Xβ+ ε ε σ2
Satu-satunya perbedaan antara ini dan adalah bahwa kebalikan dari elemen D digunakan! Dengan kata lain, "persamaan" y = X β diselesaikan dengan "membalikkan" X : inversi semu ini mengurungkan rotasi U dan V ′ (hanya dengan memindahkannya) dan membatalkan perkalian (diwakili oleh DX′= VD U′ D y= Xβ X U V′ D ) secara terpisah di setiap prinsipal arah.
Untuk referensi di masa mendatang, pemberitahuan bahwa "diputar" perkiraan β adalah kombinasi linear dari "diputar" tanggapan U ' y . Koefisien invers dari (positif) elemen diagonal D , sama untuk d - 1 i iV′β^ U′y D d- 1i i .
Koefisien estimasi koefisien
Ingat bahwa kovarians dari perkiraan adalah Menggunakan SVD, ini menjadi σ 2 ( V D 2 V ′ ) - 1 = σ 2 V D - 2 V ′ . Dengan kata lain, kovarians bertindak seperti itu dari k orthogonal variabel, masing-masing dengan varians d 2 i i
Matriks Hat
Matriks topi adalah Dengan menggunakan hasil sebelumnya kita dapat menulis ulang sebagai H = ( U D V ′ ) ( V D - 1 U ′ ) = U U ′ .
Analisis eigen (dekomposisi spektral)
SVD dapat mendiagnosis dan menyelesaikan masalah collinearity.
Mendekati para regresi
Regresi Punggung
Hasil ini harus dipahami dalam arti agak halus yang disinggung sebelumnya: diputarV′β^R U′y d- 1i i d2i i/ ( d2i i+ λ ) λ β^R
sumber