Reguler linear vs RKHS-regresi

9

Saya sedang mempelajari perbedaan antara regularisasi dalam regresi RKHS dan regresi linier, tetapi saya kesulitan memahami perbedaan penting antara keduanya.

(xi,yi)f()

f(x)u(x)=i=1mαiK(x,xi),
K(,)αm
minαRn1nYKαRn2+λαTKα,
di mana, dengan beberapa penyalahgunaan notasi, entri i,j dari matriks kernel K adalah K(xi,xj) . Ini memberi
α=(K+λnI)1Y.
Atau, kita bisa memperlakukan masalah sebagai regresi ridge normal / masalah regresi linier:
minαRn1nYKαRn2+λαTα,
dengan solusi
α=(KTK+λnI)1KTY.

Apa perbedaan penting antara kedua pendekatan ini dan solusinya?

MthQ
sumber
@MThQ - Bukankah deskripsi Anda tentang regresi ridge 'normal' masih berfungsi di dual? Hanya untuk mengklarifikasi bahwa saya pikir regresi ridge normal diasumsikan bekerja di awal (di mana representasi fitur eksplisit dibuat).
rnoodle

Jawaban:

5

Seperti yang mungkin Anda perhatikan ketika menuliskan masalah optimisasi, satu-satunya perbedaan dalam minimisasi adalah norma Hilbert yang digunakan untuk hukuman. Yaitu, untuk menghitung nilai ' ' yang besar untuk tujuan hukuman. Dalam pengaturan RKHS, kami menggunakan produk dalam RKHS, , sedangkan regresi ridge menghukum sehubungan dengan norma Euclidean.α t K αααtKα

Konsekuensi teoritis yang menarik adalah bagaimana masing-masing metode efek spektrum dari kernel mereproduksi . Dengan teori RKHS, kita memiliki bahwa adalah pasti positif simetris. Dengan teorema spektral, kita dapat menulis mana adalah matriks diagonal dari nilai eigen dan adalah matriks ortonormal vektor eigen. Akibatnya, dalam pengaturan RKHS, Sementara itu, dalam pengaturan regresi Ridge, perhatikan bahwa secara simetri, K K = U t D U D U ( K + λ n I ) - 1 YKKK=UtDUDU

(K+λnI)1Y=[Ut(D+λnI)U]1Y=Ut[D+λnI]1UY.
KtK=K2
(K2+λnI)1KY=[Ut(D2+λnI)U]1KY=Ut[D2+λnI]1UKY=Ut[D2+λnI]1DUY=Ut[D+λnD1]1UY.
Biarkan spektrum menjadi . Dalam regresi RKHS, nilai eigen distabilkan oleh . Dalam regresi Ridge, kami memiliki . Akibatnya, RKHS secara seragam memodifikasi nilai eigen sementara Ridge menambahkan nilai yang lebih besar jika sesuai lebih kecil.Kν1,,νnνiνi+λnνiνi+λn/νiνi

Bergantung pada pilihan kernel, dua perkiraan untuk mungkin dekat atau jauh satu sama lain. Jarak dalam pengertian norma operator akan menjadi Namun, ini masih dibatasi untuk diberikanαY

αRKHSαRidge2=ARKHSYARidgeY2[D+λnI]1[D+λnD1]1Y2maxi=1,,n{|(νi+λn)1(νi+λn/νi)1|}Y2maxi=1,,n{λn|1νi|(νi+λn)(νi2+λn)}Y2
Y, sehingga dua penaksir Anda tidak dapat terpisah secara sewenang-wenang. Oleh karena itu, jika kernel Anda dekat dengan identitas, maka kemungkinan besar akan ada sedikit perbedaan dalam pendekatan. Jika kernel Anda sangat berbeda, kedua pendekatan tersebut masih dapat menghasilkan hasil yang serupa.

Dalam praktiknya, sulit untuk mengatakan secara definitif jika yang satu lebih baik daripada yang lain untuk situasi tertentu. Karena kami meminimalkan sehubungan dengan kesalahan kuadrat ketika mewakili data dalam hal fungsi kernel, kami secara efektif memilih kurva regresi terbaik dari ruang fungsi Hilbert yang sesuai. Oleh karena itu, menghukum sehubungan dengan produk dalam RKHS tampaknya menjadi cara alami untuk melanjutkan.

Adam B Kashlak
sumber
1
Apakah Anda punya referensi untuk ini?
rnoodle