Saya ingat pernah membaca di suatu tempat di web hubungan antara regresi ridge (dengan regularisasi) dan regresi PCA: saat menggunakan -regregulated regulated dengan hyperparameter , jika , maka regresi tersebut setara dengan menghapus Variabel PC dengan nilai eigen terkecil.ℓ 2 λ λ → 0
- Mengapa ini benar?
- Apakah ini ada hubungannya dengan prosedur optimasi? Secara naif, saya berharap itu setara dengan OLS.
- Adakah yang punya referensi untuk ini?
Jawaban:
Misalkan adalah matriks prediktor terpusat n × p dan pertimbangkan dekomposisi nilai singularnya X = U S V ⊤ dengan S sebagai matriks diagonal dengan elemen diagonal s i .X n × p X = U S V⊤ S ssaya
Nilai-nilai pas kuadrat terkecil biasa (OLS) regresi diberikan oleh y O L S = X β O L S = X ( X ⊤ X ) - 1 X ⊤ y = U U ⊤ y . Nilai dipasang regresi ridge diberikan oleh y r i d g e = X β r i d g e = X ( X ⊤ X
Dari sini kita dapat melihat bahwa:
Jika maka y r i d g e = y O L S .λ = 0 y^r i d g e= y^O L S
Ini berarti bahwa regresi ridge dapat dilihat sebagai "versi lancar" dari PCR.
Regresi Ridge cenderung berkinerja lebih baik dalam praktik (misalnya memiliki kinerja lintas-validasi lebih tinggi).
Salah satu referensi yang baik adalah Elemen Pembelajaran Statistik , Bagian 3.4.1 "Regresi Ridge".
Lihat juga utas ini: Interpretasi regularisasi ridge dalam regresi dan khususnya jawabannya oleh @BrianBorchers.
sumber
Elemen Pembelajaran Statistik memiliki diskusi besar tentang hubungan ini.
Cara saya mengartikan koneksi dan logika ini adalah sebagai berikut:
Sambungan PCA adalah bahwa Regresi Ridge menghitung Kombinasi Linear dari Fitur untuk menentukan di mana multikolinieritas terjadi. Kombinasi Fitur Linier (Analisis Komponen Utama) dengan varians terkecil (dan karenanya nilai singular yang lebih kecil dan nilai eigen yang lebih kecil di PCA) adalah yang dihukum paling berat.
Pikirkan seperti ini; untuk Kombinasi Linier Fitur dengan varian terkecil, kami telah menemukan Fitur yang paling mirip, sehingga menyebabkan multikolinieritas. Karena Ridge tidak mengurangi set Fitur, arah mana pun yang digambarkan oleh Kombinasi Linier ini, Fitur asli yang sesuai dengan arah itu paling banyak dihukum.
sumber
Pertimbangkan persamaan linierX β= y,
dan SVD dari X ,
X = USVT,
dimana S =diag( ssaya) adalah matriks diagonal dari nilai singular.
Kuadrat terkecil biasa menentukan vektor parameterβ sebagai
βO L S= VS- 1UT
Namun, pendekatan ini gagal segera setelah ada satu nilai singular yang nol (saat itu kebalikannya tidak ada). Apalagi jika tidakssaya adalah sangat nol, nilai singular yang kecil secara numerik dapat membuat matriks tidak dikondisikan dan mengarah pada solusi yang sangat rentan terhadap kesalahan.
Regresi Ridge dan PCA menghadirkan dua metode untuk menghindari masalah ini. Regresi punggungan menggantikanS- 1 dalam persamaan di atas untuk β oleh
S- 1punggung bukitβpunggung bukit= diag ( ssayas2saya+ α) ,= V S- 1punggung bukitUT
PCA menggantikanS- 1 oleh
S- 1PCAβPCA= diag ( 1ssayaθ ( ssaya- γ) ),= V S- 1PCAUT
wehre θ adalah fungsi langkah, dan γ adalah parameter ambang batas.
Kedua metode demikian melemahkan dampak ruang bagian yang sesuai dengan nilai-nilai kecil. PCA melakukan itu dengan cara yang sulit, sementara punggungan adalah pendekatan yang lebih halus.
Secara lebih abstrak, Anda dapat membuat skema regularisasi sendiriS- 1myReg= diag ( R ( ssaya) ),
dimana R ( x ) adalah fungsi yang harus mendekati nol untuk x → 0 dan R ( x ) → x- 1 untuk x besar. Tapi ingat, tidak ada makan siang gratis.
sumber