Saya memiliki satu set titik data dalam ruang dimensi N. Selain itu, saya juga memiliki centroid di ruang dimensi-N yang sama. Apakah ada pendekatan yang dapat memungkinkan saya untuk memproyeksikan titik data ini ke ruang dua dimensi sambil menjaga informasi jarak relatif mereka di ruang asli. Apakah PCA yang benar?
data-visualization
pca
multidimensional-scaling
pertanyaan kecil
sumber
sumber
Jawaban:
Kerangka umum yang menangani masalah Anda disebut reduksi dimensi. Anda ingin memproyeksikan data dari dimensi N ke 2 dimensi, sambil mempertahankan "informasi penting" dalam data Anda. Metode yang paling cocok tergantung pada distribusi data Anda, yaitu manifold N-dimensional. PCA akan muat pesawat menggunakan kriteria kuadrat terkecil. Ini mungkin akan bekerja buruk untuk contoh "swiss roll": swiss roll .
Metode yang lebih modern termasuk Kernel PCA, LLE, peta difusi dan representasi kamus yang jarang. Mengenai pelestarian jarak, beberapa metode dapat menjaga jarak non-euclidean.
sumber
Seperti disebutkan dalam jawaban sebelumnya, ada sejumlah metode pengurangan dimensionalitas, dan satu hal penting untuk dipertimbangkan adalah apa yang ingin Anda wakili - apakah Anda tertarik dengan pengukuran jarak Euclidean? Atau metrik kesamaan di seluruh sampel?
Untuk yang pertama, PCA bisa sesuai. Ini biasanya digunakan dengan tindakan terus menerus seperti pengukuran sampel (hewan, tanaman, dll ...). Saya akan melihat ke menyebutkan lebih modern dalam jawaban sebelumnya juga.
Untuk yang terakhir, di mana Anda mungkin mencoba untuk membandingkan kesamaan menggunakan metrik jarak non-euclidean, ada beberapa metode yang baik seperti Prinsip Penahbisan Komponen (PCoA) dan Non-metric Multidimensional Scaling (NMDS). Contoh kapan Anda dapat menggunakan ini adalah ketika Anda membandingkan komunitas ekologis di antara area yang berbeda, dan Anda memiliki sejumlah jenis organisme yang berbeda yang ditemukan. Jadi, data Anda adalah data "hitung". Ada sejumlah metrik kesamaan seperti Jaccard, Sorensen, Bray-Curtis, yang secara efektif memungkinkan Anda memperkirakan seberapa mirip situs tersebut dalam komposisi organisme mereka. PCoA dan NMDS pada dasarnya memungkinkan Anda untuk memplot sampel (situs) untuk mewakili jarak ekologis (kesamaan), dan Anda memiliki skor untuk situs pada setiap sumbu.
Ada banyak buku bagus dan sumber daya lain untuk analisis multivariat. Cari "Penahbisan" di Google. Juga, ada paket R yang disebut 'vegan' yang sangat bagus untuk benar-benar melakukan banyak pekerjaan ini.
sumber
Masalah Anda terdengar seperti aplikasi buku teks untuk penskalaan multidimensi . Pengantar yang baik dapat ditemukan di sini: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm
Tentu saja Anda dapat mencoba PCA. Tetapi PCA tidak memiliki niat untuk menjaga informasi jarak relatif di ruang asli.
sumber