Apa yang dimaksud dengan PCA hanya mempertahankan jarak berpasangan yang besar?

10

Saat ini saya membaca tentang teknik visualisasi t-SNE dan disebutkan bahwa salah satu kelemahan menggunakan analisis komponen utama (PCA) untuk memvisualisasikan data dimensi tinggi adalah bahwa ia hanya mempertahankan jarak berpasangan yang besar antara titik-titik. Makna titik-titik yang berjauhan dalam ruang dimensi tinggi juga akan tampak berjauhan dalam subruang dimensi rendah tetapi selain itu semua jarak berpasangan lainnya akan kacau.

Bisakah seseorang membantu saya memahami mengapa itu dan apa artinya secara grafis?

pengguna
sumber
PCA terkait erat dengan jarak Euclidian dan Mahalanobis, yang rabun dalam dimensi yang lebih tinggi, mereka tidak dapat melihat jarak kecil.
Aksakal
Perhatikan juga bahwa PCA, seperti yang terlihat sebagai MDS metrik paling sederhana, adalah tentang merekonstruksi jarak euclide kuadrat yang dijumlahkan . Padat, presisi untuk jarak kecil menderita.
ttnphns

Jawaban:

8

Pertimbangkan dataset berikut:

Dataset PCA

Sumbu PC1 memaksimalkan varians dari proyeksi. Jadi dalam hal ini jelas akan bergerak secara diagonal dari kiri bawah ke sudut kanan atas:

PCA hanya mempertahankan jarak berpasangan yang besar

Jarak berpasangan terbesar dalam dataset asli adalah antara dua titik terluar ini; perhatikan bahwa itu hampir persis diawetkan di PC1. Jarak berpasangan yang lebih kecil namun masih substansial adalah antara masing-masing titik yang ada dan semua titik lainnya; mereka terlestarikan dengan cukup baik juga. Tetapi jika Anda melihat jarak berpasangan yang lebih kecil di antara titik-titik di pusat cluster, maka Anda akan melihat bahwa beberapa di antaranya sangat terdistorsi.

Saya pikir ini memberikan intuisi yang tepat: PCA menemukan ruang bagian dimensi rendah dengan varian maksimal. Varians maksimal berarti bahwa ruang bagian akan cenderung disejajarkan seperti mendekati titik-titik yang jauh dari pusat; oleh karena itu jarak berpasangan terbesar akan cenderung dipertahankan dengan baik dan yang lebih kecil kurang begitu.

Namun, perhatikan bahwa ini tidak dapat diubah menjadi argumen formal karena faktanya itu tidak selalu benar. Lihatlah jawaban saya di Apa perbedaan antara analisis komponen utama dan penskalaan multidimensi? Jika Anda mengambil poin dari gambar di atas, buat matriks jarak berpasangan dan tanyakan proyeksi 1D apa yang menjaga jarak sedekat mungkin, maka jawabannya diberikan oleh solusi MDS dan tidak diberikan oleh PC1 . Namun, jika Anda mempertimbangkan matriks produk skalar berpusat berpasangan, maka itu adalah1010×1010×10sebenarnya paling baik disimpan dengan PC1 (lihat jawaban saya di sana untuk buktinya). Dan orang dapat berpendapat bahwa jarak berpasangan yang besar biasanya berarti produk skalar yang besar juga; pada kenyataannya, salah satu algoritma MDS (klasik / Torgerson MDS) bersedia secara eksplisit membuat asumsi ini.

Jadi untuk meringkas:

  1. PCA bertujuan untuk mempertahankan matriks produk skalar berpasangan, dalam arti bahwa jumlah perbedaan kuadrat antara produk skalar asli dan yang direkonstruksi harus minimal.
  2. Ini berarti bahwa ia akan lebih menjaga produk skalar dengan nilai absolut terbesar dan tidak akan terlalu peduli tentang mereka dengan nilai absolut kecil, karena mereka menambahkan lebih sedikit ke arah jumlah kesalahan kuadrat.
  3. Oleh karena itu, PCA mempertahankan produk skalar yang lebih besar lebih baik daripada yang lebih kecil.
  4. Jarak berpasangan akan dipertahankan hanya sebanyak mereka mirip dengan produk skalar yang sering tetapi tidak selalu terjadi. Jika demikian halnya, maka jarak berpasangan yang lebih besar juga akan dipertahankan lebih baik daripada yang lebih kecil.
amuba
sumber
Saya tidak berpikir ini visual yang benar. Itu tidak menunjukkan bagaimana keadaan menjadi lebih buruk dengan peningkatan dimensionalitas
Aksakal
2
Saya tidak yakin saya mengerti maksud Anda, @Aksakal. Pertimbangkan memposting jawaban alternatif dengan sudut pandang Anda. Saya pikir efek lebih baik mempertahankan lebih besar daripada jarak berpasangan yang lebih kecil sudah ada dalam 2D, dan orang tidak perlu memikirkan dimensi tinggi untuk memahami apa yang terjadi. Karenanya saya fokus pada contoh 2D sederhana.
amoeba
Apa yang Anda gambar akan berlaku untuk metode apa pun. Saya dapat menempatkan beberapa poin sangat jauh dan berpendapat bahwa mereka melebihi sisanya. Masalah dengan jarak Euclidian adalah rentang dinamisnya menyusut dengan peningkatan dimensionalitas
Aksakal
+1, Tapi saya akan mengubah aksen, agak berbeda dari yang Anda lakukan (kebanyakan poin 4). Masalahnya bukan bahwa ini adalah jarak dan itu adalah produk skalar (matriks "double-centration") - setelah semua, mengingat diagonal mereka menjaga informasi yang identik. Sebaliknya, masalahnya persis analog dengan peluang analisis Faktor PCA vs. PCoA Torgerson, sebagai PCA, akan bertujuan untuk memaksimalkan rekonstruksi sc. melecut. Matriks sebagian besar melalui diagonal, tidak mengendalikan secara spesifik bagaimana entri off-diagonal akan dipasang.
ttnphns
(Lanj.) Jejak diagonal yang disebutkan adalah variabilitas keseluruhan dan secara langsung terkait dengan jumlah semua jarak berpasangan kuadrat, meninggalkan jarak individual. Bisa juga diutarakan dalam hal teorema Eckart-Young yang menyatakan bahwa cloud data PCA-direkonstruksi paling dekat dalam hal jumlah kuadrat dengan yang asli; yaitu, jarak kuadrat keseluruhan antara titik-titik lama dan titik-titik yang diproyeksikan PCA mereka minimal. Ini tidak sama dengan jarak berpasangan lama - hubungan jarak pw baru.
ttnphns