Saat ini saya membaca tentang teknik visualisasi t-SNE dan disebutkan bahwa salah satu kelemahan menggunakan analisis komponen utama (PCA) untuk memvisualisasikan data dimensi tinggi adalah bahwa ia hanya mempertahankan jarak berpasangan yang besar antara titik-titik. Makna titik-titik yang berjauhan dalam ruang dimensi tinggi juga akan tampak berjauhan dalam subruang dimensi rendah tetapi selain itu semua jarak berpasangan lainnya akan kacau.
Bisakah seseorang membantu saya memahami mengapa itu dan apa artinya secara grafis?
machine-learning
data-visualization
pca
tsne
pengguna
sumber
sumber
Jawaban:
Pertimbangkan dataset berikut:
Sumbu PC1 memaksimalkan varians dari proyeksi. Jadi dalam hal ini jelas akan bergerak secara diagonal dari kiri bawah ke sudut kanan atas:
Jarak berpasangan terbesar dalam dataset asli adalah antara dua titik terluar ini; perhatikan bahwa itu hampir persis diawetkan di PC1. Jarak berpasangan yang lebih kecil namun masih substansial adalah antara masing-masing titik yang ada dan semua titik lainnya; mereka terlestarikan dengan cukup baik juga. Tetapi jika Anda melihat jarak berpasangan yang lebih kecil di antara titik-titik di pusat cluster, maka Anda akan melihat bahwa beberapa di antaranya sangat terdistorsi.
Saya pikir ini memberikan intuisi yang tepat: PCA menemukan ruang bagian dimensi rendah dengan varian maksimal. Varians maksimal berarti bahwa ruang bagian akan cenderung disejajarkan seperti mendekati titik-titik yang jauh dari pusat; oleh karena itu jarak berpasangan terbesar akan cenderung dipertahankan dengan baik dan yang lebih kecil kurang begitu.
Namun, perhatikan bahwa ini tidak dapat diubah menjadi argumen formal karena faktanya itu tidak selalu benar. Lihatlah jawaban saya di Apa perbedaan antara analisis komponen utama dan penskalaan multidimensi? Jika Anda mengambil poin dari gambar di atas, buat matriks jarak berpasangan dan tanyakan proyeksi 1D apa yang menjaga jarak sedekat mungkin, maka jawabannya diberikan oleh solusi MDS dan tidak diberikan oleh PC1 . Namun, jika Anda mempertimbangkan matriks produk skalar berpusat berpasangan, maka itu adalah10 10×10 10×10 sebenarnya paling baik disimpan dengan PC1 (lihat jawaban saya di sana untuk buktinya). Dan orang dapat berpendapat bahwa jarak berpasangan yang besar biasanya berarti produk skalar yang besar juga; pada kenyataannya, salah satu algoritma MDS (klasik / Torgerson MDS) bersedia secara eksplisit membuat asumsi ini.
Jadi untuk meringkas:
sumber