Mengapa hanya ada

22

Dalam PCA, ketika jumlah dimensi lebih besar dari (atau bahkan sama dengan) jumlah sampel N , mengapa Anda akan memiliki paling banyak N - 1 vektor eigen bukan nol? Dengan kata lain, pangkat matriks kovarians di antara dimensi d N adalah N - 1 .dNN1dNN1

Contoh: Sampel Anda adalah gambar vektor, yang berdimensi , tetapi Anda hanya memiliki N = 10 gambar.d=640×480=307200N=10

GrokingPCA
sumber
5
Bayangkan poin dalam 2D ​​atau 3D. Apa dimensi bermacam-macam yang ditempati titik-titik ini? Jawabannya adalah N - 1 = 1 : dua titik selalu terletak pada garis (dan garis adalah 1-dimensi). Dimensi tepat ruang itu tidak masalah (asalkan lebih besar dari N ), poin Anda hanya menempati ruang bagian 1 dimensi. Jadi varians hanya "menyebar" di subruang ini, yaitu sepanjang 1 dimensi. Ini tetap berlaku untuk N apa pun . N=2N1=1NN
Amoeba berkata Reinstate Monica
1
Saya hanya akan menambahkan presisi tambahan untuk komentar @ amoeba. Titik asal juga penting. Jadi, jika Anda memiliki N = 2 + asal, jumlah dimensi paling banyak 2 (bukan 1). Namun, dalam PCA kita biasanya memusatkan data, yang berarti bahwa kita menempatkan asal di dalam ruang data cloud - maka satu dimensi dikonsumsi dan jawabannya akan "N-1", seperti yang ditunjukkan oleh amuba.
ttnphns
Inilah yang membingungkan saya. Bukan pemusatan per se yang menghancurkan dimensi, kan? Jika Anda memiliki sampel N dan dimensi N yang tepat, maka bahkan setelah pemusatan Anda masih memiliki vektor eigen N ..?
GrokingPCA
2
Mengapa? Pemusatan yang menghancurkan satu dimensi. Pemusatan (dengan rata-rata aritmatika) "memindahkan" asal dari "luar" ke dalam ruang "terbentang" oleh data. Dengan contoh N = 2. 2 poin + beberapa asal umumnya span pesawat. Saat Anda memusatkan data ini, Anda menempatkan sumber pada garis lurus di tengah antara 2 poin. Jadi, data sekarang hanya menjangkau garis.
ttnphns
3
Euclid sudah tahu ini 2300 tahun yang lalu: dua titik menentukan garis, tiga titik menentukan sebuah pesawat. Generalisasi, titik menentukan ruang Euclidean N - 1 dimensi . NN-1
whuber

Jawaban:

20

Pertimbangkan apa yang dilakukan PCA. Sederhananya, PCA (seperti kebanyakan berjalan) menciptakan sistem koordinat baru dengan:

  1. menggeser asal ke pusat data Anda,
  2. meremas dan / atau meregangkan sumbu agar panjangnya sama, dan
  3. memutar sumbu Anda ke orientasi baru.

X1 yang ortogonal ke komponen utama pertama . Komponen utama yang tersisa juga dibentuk.


X=[111222]
Mari kita lihat titik-titik ini dalam sebar sebar tiga dimensi (semu):

enter image description here

Jadi mari kita ikuti langkah-langkah yang tercantum di atas. (1) Asal usul sistem koordinat baru akan berlokasi di(1.5,1.5,1.5). (2) Sumbu sudah sama. (3) Komponen utama pertama akan diagonal dari(0,0,0) untuk (3,3,3), yang merupakan arah variasi terbesar untuk data ini. Sekarang, komponen utama kedua harus ortogonal dengan yang pertama, dan harus mengarah pada variasi terbesar yang tersisa . Tapi ke arah mana itu? Apakah itu dari(0,0,3) to (3,3,0), or from (0,3,0) to (3,0,3), or something else? There is no remaining variation, so there cannot be any more principal components.

With N=2 data, we can fit (at most) N1=1 principal components.

gung - Reinstate Monica
sumber