Apakah Kernel PCA dengan kernel linear setara dengan PCA standar?

Jika dalam kernel PCA saya memilih kernel linear , apakah hasilnya akan berbeda dari PCA linear biasa ? Apakah solusinya berbeda secara mendasar atau apakah ada hubungan yang didefinisikan dengan baik? $K(\mathbf{x},\mathbf{y}) = \mathbf x^\top \mathbf y$

pca kernel-trick tgoossens
sumber

Jawaban:

Rangkuman: kernel PCA dengan kernel linier persis sama dengan PCA standar.

Biarkan menjadi matriks data terpusat ukuran dengan variabel di kolom dan titik data dalam baris. Kemudian matriks kovarians diberikan oleh , vektor eigennya adalah sumbu utama dan nilai eigen adalah varian PC. Pada saat yang sama, seseorang dapat mempertimbangkan disebut Gram matrix dari ukuran. Mudah untuk melihat bahwa ia memiliki nilai eigen yang sama (yaitu varians PC) hingga faktor , dan vektor eigennya merupakan komponen utama yang diskalakan ke unit norma. $\mathbf{X}$ $N \times D$ $D$ $N$ $D \times D$ $\mathbf{X}^\top\mathbf{X}/(n-1)$ $\mathbf{X}\mathbf{X}^\top$ $N \times N$ $n-1$

Ini adalah PCA standar. Sekarang, dalam kernel PCA kami mempertimbangkan beberapa fungsi yang memetakan setiap titik data ke ruang vektor lain yang biasanya memiliki dimensi lebih besar , bahkan mungkin tak terhingga. Gagasan PCA kernel adalah untuk melakukan PCA standar di ruang baru ini. $\phi(x)$ $D_\mathrm{new}$

Karena dimensi ruang baru ini sangat besar (atau tidak terbatas), sulit atau tidak mungkin untuk menghitung matriks kovarians. Namun, kita dapat menerapkan pendekatan kedua untuk PCA yang diuraikan di atas. Memang, matriks Gram masih akan memiliki ukuran dapat dikelola yang sama . Elemen-elemen dari matriks ini diberikan oleh , yang akan kita sebut fungsi kernel . Inilah yang dikenal sebagai trik kernel : seseorang sebenarnya tidak perlu menghitung , tetapi hanya . Vektor eigen dari matriks Gram ini akan menjadi komponen utama dalam ruang target, yang kami minati. $N \times N$ $\phi(\mathbf{x}_i)\phi(\mathbf{x}_j)$ $K(\mathbf{x}_i,\mathbf{x}_j)=\phi(\mathbf{x}_i)\phi(\mathbf{x}_j)$ $\phi()$ $K()$

Jawaban atas pertanyaan Anda sekarang menjadi jelas. Jika , maka matriks Gram kernel berkurang menjadi yang sama dengan matriks Gram standar , dan karenanya komponen-komponen utama tidak akan berubah. $K(x,y)=\mathbf{x}^\top \mathbf{y}$ $\mathbf{X} \mathbf{X}^\top$

Referensi yang sangat mudah dibaca adalah Scholkopf B, Smola A, dan Müller KR, analisis komponen utama Kernel, 1999 , dan perhatikan bahwa misalnya dalam Gambar 1, mereka secara eksplisit merujuk ke PCA standar sebagai yang menggunakan produk titik sebagai fungsi kernel:

kernel PCA

amuba kata Reinstate Monica
sumber

dari mana foto-foto itu berasal dari jawaban Anda? Dari beberapa buku?

Pinocchio

@ Pinocchio, sosok itu diambil dari Scholkopf et al. kertas, direferensikan dan ditautkan ke dalam jawaban saya.

Amuba mengatakan Reinstate Monica

"Mudah untuk melihat bahwa ia memiliki nilai eigen yang sama (yaitu varian PC) hingga faktor n − 1 " - bukankah ini berarti bahwa mereka tidak sepenuhnya setara? Katakanlah saya memiliki matriks dengan n = 10 sampel, d = 200 dimensi. Dalam PCA standar saya akan dapat memproyeksikan data ke 199 dimensi jika saya mau, tetapi dalam PCA kernel dengan kernel linier saya hanya bisa hingga 10 dimensi.

Cesar

@ Cesar, tidak, jika Anda memiliki n = 10 sampel maka matriks kovarians akan memiliki peringkat 10-1 = 9 dan PCA standar hanya akan menemukan 9 dimensi (dan juga kernel PCA). Lihat di sini: stats.stackexchange.com/questions/123318 .

Amuba kata Reinstate Monica

Saya mendapatkan file yang tidak ditemukan untuk tautan referensi Scholkopf B, Smola A, dan Müller KR.

pbible

Selain jawaban bagus amoeba, ada cara yang bahkan lebih sederhana untuk melihat kesetaraan. Sekali lagi biarkan menjadi matriks data ukuran dengan variabel dalam kolom dan titik data dalam baris. Standar PCA sesuai dengan mengambil nilai dekomposisi singular dari matriks dengan komponen utama dari . Dekomposisi nilai singular dari kernel linear $X$ $N \times D$ $D$ $N$ $X = U \Sigma V^\top$ $U$ $X$ $XX^\top = U \Sigma^2 U^\top$ memiliki vektor singular kiri yang sama dan komponen utama yang sama.

Martha White
sumber

Untuk PCA standar, saya pikir kami peduli, tentang SVD dari matriks kovarian, jadi tidak benar-benar mengerti bagaimana SVD dari X relevan, dapatkah Anda memperluas?

m0s

@ m0s Untuk PCA, kami peduli tentang eigendekomposisi dari matriks kovarians yang biasanya kami lakukan dengan SVD dari matriks data (terpusat).

MrDrFenner

Tampak bagi saya bahwa KPCA dengan kernel linear harus sama dengan PCA sederhana.

Matriks kovarian yang akan Anda dapatkan dari nilai eigennya adalah sama:

l i n e a r K P C A_{m a t r i x} = \frac{1}{l} \sum_{j = 1}^{l} K (x_{j}, x_{j}) = \frac{1}{l} \sum_{j = 1}^{l} x_{j} x_{j}^{T} = P C A_{m a t r i x}

$linearKPCA_{matrix} = \frac{1}{l} \sum_{j=1}^{l}K(x_{j},x_{j}) = \frac{1}{l} \sum_{j=1}^{l}x_{j}x_{j}^T = PCA_{matrix}$

Anda dapat memeriksa dengan lebih detail di sini .

Jundiaius
sumber

K (x_{i}, x_{j})

$K(x_i, x_j)$