Linearitas PCA

35

PCA dianggap sebagai prosedur linier, namun:

P C SEBUAH (X) \neq P C SEBUAH (X_{1}) + P C SEBUAH (X_{2}) + ... + P C SEBUAH (X_{n}),

$\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n),$

di mana . Ini untuk mengatakan bahwa vektor eigen yang diperoleh PCA pada matriks data tidak meringkaskan sama dengan vektor eigen yang diperoleh PCA pada jumlah matriks data . Tetapi bukankah definisi fungsi linear itu: $X=X_1+X_2+\ldots+X_n$ $X_i$ $X_i$ $f$

f (x + y) = f (x) + f (y) ?

$f(x+y)=f(x)+f(y)?$

Jadi mengapa PCA dianggap "linier" jika tidak memenuhi kondisi linearitas yang sangat mendasar ini?

pca linear Alpha Omega
sumber

Saya pernah menulis atau mendengar (maaf, saya tidak ingat di mana atau kapan), bahwa PCA "milik keluarga prosedur linier" karena bergantung pada dependensi linear antar variabel. Ia menggunakan matriks korelasi Pearson dan mencari kombinasi linier dengan varian tertinggi.

Łukasz Deryło

4

Sifat dari pertanyaan ini mungkin menjadi sedikit lebih jelas dengan merenungkan pengaturan yang lebih sederhana dan rutin dari regresi kuadrat terkecil biasa: ini adalah pola dasar dari prosedur statistik linier. Namun demikian, proses memperkirakan koefisien kuadrat terkecil adalah fungsi nyata nonlinier dari matriks data , sebagaimana dibuktikan oleh rumus . (Perhatikan bahwa ini adalah fungsi linear dari vektor respons .)

X

$X$

\hat{β} = (X^{'} X)^{- 1} X^{'} y

$\hat\beta = (X^\prime X)^{-1}X^\prime y$

y

$y$

whuber

4

Mungkin perlu diingat bahwa f (x) = x +1 adalah "fungsi linear" juga ... tetapi itu tidak memuaskan apa yang baru saja Anda katakan ... yang seharusnya menjelaskan sesuatu.

Mehrdad

Itu karena

(X_{1} + X_{2})^{T} (X_{1} + X_{2}) \neq X_{1}^{T} X_{1} + X_{2}^{T} X_{2}

$(X_1+X_2)^T(X_1+X_2)\neq X_1^TX_1+X_2^TX_2$

Gabriel Romon

39

Ketika kita mengatakan bahwa PCA adalah metode linier, kita merujuk pada pemetaan pengurangan dimensi untuk dari ruang dimensi tinggi ke ruang dimensi rendah . Dalam PCA, pemetaan ini diberikan oleh perkalian oleh matriks vektor eigen PCA dan demikian juga nyata linear (perkalian matriks linear):Ini berbeda dengan metode reduksi dimensionalitas nonlinier , dimana pemetaan reduksi dimensionalitas bisa nonlinier. $f:\mathbf x\mapsto \mathbf z$ $\mathbb R^p$ $\mathbb R^k$ $\mathbf x$

z = f (x) = V^{⊤} x .

$\mathbf z = f(\mathbf x) = \mathbf V^\top \mathbf x.$

Di sisi lain, vektor eigen atas dihitung dari matriks data menggunakan apa yang Anda panggil dalam pertanyaan Anda: dan ini pemetaan ini tentunya non-linear: melibatkan vektor eigen komputasi dari matriks kovarians, yang merupakan prosedur non-linear . (Sebagai contoh sepele, mengalikan dengan meningkatkan matriks kovarians sebesar , tetapi vektor eigennya tetap sama seperti yang dinormalisasi untuk memiliki panjang satuan.) $k$ $\mathbf V\in \mathbb R^{p\times k}$ $\mathbf X\in \mathbb R^{n\times p}$ $\mathrm{PCA}()$

V = P C SEBUAH (X),

$\mathbf V = \mathrm{PCA}(\mathbf X),$

X

$\mathbf X$

2

$2$

4

$4$

amuba kata Reinstate Monica
sumber

Bahwa saya mendapat 35 upvotes untuk jawaban sepele ini cukup konyol (dan sebagian besar karena utas ini berada di Pertanyaan Jaringan Panas untuk sementara waktu).

Amuba mengatakan Reinstate Monica

5

"Linear" dapat berarti banyak hal, dan tidak secara eksklusif digunakan secara formal.

PCA tidak sering didefinisikan sebagai fungsi dalam pengertian formal, dan oleh karena itu PCA tidak diharapkan memenuhi persyaratan fungsi linier ketika digambarkan seperti itu. Ini lebih sering dijelaskan, seperti yang Anda katakan, sebagai prosedur, dan kadang-kadang algoritma (meskipun saya tidak suka opsi terakhir ini). Sering dikatakan linear dalam cara yang informal, tidak didefinisikan dengan baik.

PCA dapat dianggap linier, misalnya, dalam pengertian berikut. Itu milik keluarga metode yang menganggap bahwa setiap variabel dapat didekati dengan fungsi mana dan adalah seperangkat variabel dengan beberapa yang diinginkan milik. Dalam kasus PCA, adalah seperangkat variabel independen yang dapat dikurangi dalam kardinalitas dengan kerugian minimal dalam akurasi perkiraan dalam arti tertentu. Itu adalah sifat yang diinginkan dalam berbagai pengaturan. $X_i$

X_{saya} \approx f_{Y} (α)

$X_i \approx f_Y(\alpha)$

α \in R^{k}

$\alpha \in \mathbb{R}^k$

Y

$Y$

k

$k$

Y

$Y$

Sekarang, untuk PCA, setiap dibatasi untuk bentuk yaitu, kombinasi linear dari variabel dalam . $f_i$

f_{Y} (α) = \sum_{saya = 1}^{k} α_{saya} Y_{saya}

$f_Y(\alpha) = \sum_{i=1}^k \alpha_{i}Y_i$

Y

$Y$

Dengan batasan ini, ia menawarkan prosedur untuk menemukan nilai dan yang optimal (dalam beberapa hal) . Artinya, PCA hanya menganggap fungsi linier sebagai hipotesis yang masuk akal. Dalam hal ini, saya pikir itu dapat secara sah digambarkan sebagai "linear". $Y$ $\alpha_{ij}$

broncoAbierto
sumber

3

PCA menyediakan / merupakan transformasi linier.

Jika Anda mengambil peta yang terkait dengan analisis tertentu, katakan lalu . $\mathbf{M} \equiv PCA(X_1 + X_2)$ $\mathbf{M}(X_1+X_2) = \mathbf{M}(X_1) + \mathbf{M}(X_2)$

Penyebabnya adalah , dan bukan transformasi linear yang sama . $PCA(X_1 + X_2)$ $PCA(X_1)$ $PCA(X_2)$

Sebagai perbandingan, contoh yang sangat sederhana dari proses yang menggunakan transformasi linear tetapi bukan transformasi linear itu sendiri:

Rotasi yang menggandakan sudut vektor (katakan titik dalam ruang euclidian 2-d) dengan beberapa vektor referensi (katakan ), bukan transformasi linear. Sebagai contoh $D(\mathbf{v})$ $\mathbf{v}$ $\left[x,y\right]=\left[1,0\right]$

$D(\left[1,1\right]) \rightarrow \left[0,\sqrt{2}\right]$

dan

$D(\left[0,1\right]) \rightarrow \left[-1,0\right]$

tapi

$D(\left[1,1\right]+\left[0,1\right]=\left[1,2\right]) \rightarrow \left[-0.78,2.09\right] \neq \left[-1,\sqrt{2}\right]$

penggandaan sudut ini, yang melibatkan perhitungan sudut, tidak linier, dan analog dengan pernyataan amuba, bahwa perhitungan vektor eigen tidak linier

Sextus Empiricus
sumber

Linearitas PCA

Jawaban: