Efisiensi Regresi Kernel Ridge

11

Regresi Ridge dapat dinyatakan sebagai mana adalah label yang diprediksi , yang mengidentifikasi matriks, obyek kita mencoba untuk menemukan label untuk, dan yang matriks benda sedemikian rupa sehingga: y akudd×dxXn×dnxi=(xi,1,...,Xi,d)Rd

y^=(XX+aId)1Xx
y^Idd×dxXn×dnxi=(xi,1,...,xi,d)Rd

X=(x1,1x1,2x1,dx2,1x2,2x2,dxn,1x1,2xn,d)

Kita dapat membuat kernel ini sebagai berikut:

y^=(K+aId)1k

di mana adalah matriks dari fungsi kernel n×nKKn×nK

K=(K(x1,x1)K(x1,x2)K(x1,xn)K(x2,x1)K(x2,x2)K(x2,xn)K(xn,x1)K(xn,x2)K(xn,xn))

dan yang vektor kolom dari fungsi kernel n × 1 Kkn×1K

k=(K(x1,x)K(x2,x)K(xn,x))

Pertanyaan:

(a) jika ada lebih banyak objek daripada dimensi, masuk akal untuk tidak menggunakan kernel? Misalkan biarkan menjadi matriks lalu akan menjadi dan kita akan berakhir membalikkan matriks alih-alih matriks kita harus membalikkannya jika kita menggunakan kernel. Apakah ini berarti bahwa jika kita harus tidak menggunakan kernel?X 50×3 XX 3×33×350×50dnxiX50×3XX3×33×350×50dn

(b) haruskah kernel yang paling sederhana digunakan? Tampaknya kernel dalam regresi ridge digunakan untuk meniadakan pengaruh dimensi dan tidak memanfaatkan sifat-sifat tertentu dari ruang fitur (tidak seperti mesin vektor dukungan). Meskipun, kernel dapat mengubah jarak antara objek sehingga apakah ada kernel populer yang sering digunakan dalam regresi ridge?

(c) apa kompleksitas waktu dari regresi ridge dan / atau regresi ridge kernel?O

Spiral
sumber
'efisiensi' memiliki arti berbeda dalam statistik. Apakah maksud Anda 'kompleksitas komputasi'? (dalam judul)
Memming
Maksud saya "efisiensi algoritmik". Meskipun benar bahwa pertanyaan saya pada dasarnya mengurangi ini menjadi "kompleksitas komputasi".
Helix

Jawaban:

5

(a) Tujuan penggunaan kernel adalah untuk menyelesaikan masalah regresi nonlinear dalam kasus ini. Kernel yang baik akan memungkinkan Anda untuk memecahkan masalah dalam ruang fitur dimensi tak terbatas. Tetapi, menggunakan kernel linear dan melakukan regresi punggungan kernel di ruang ganda sama dengan memecahkan masalah di ruang utama , yaitu, itu tidak membawa keuntungan apa pun (itu hanya lebih lambat karena jumlah sampel bertambah seperti yang Anda amati).K(x,y)=xy

(b) Salah satu pilihan paling populer adalah kernel eksponensial kuadrat yang bersifat universal (lihat ref di bawah). Ada banyak kernel, dan masing-masing kernel akan menginduksi produk dalam yang berbeda (dan karenanya metrik) ke ruang fitur Anda.K(x,y)=exp(τ2||xy||2)

(c) Implementasi langsung membutuhkan penyelesaian persamaan linear ukuran , jadi . Ada banyak metode perkiraan yang lebih cepat seperti perkiraan Nyström. Ini adalah area penelitian aktif.O ( n 3 )nO(n3)

Referensi:

  1. Bharath Sriperumbudur, Kenji Fukumizu, dan Gert Lanckriet. Pada hubungan antara universalitas, kernel karakteristik dan RKHS menanamkan langkah-langkah. Jurnal Penelitian Pembelajaran Mesin, 9: 773-780, 2010.
  2. Bernhard Schlkopf, Alexander J. Smola. Belajar dengan Kernel: Mendukung Mesin Vektor, Regularisasi, Optimasi, dan Beyond 2002
Memming
sumber