Bagaimana cara memproyeksikan ruang dimensi tinggi menjadi bidang dua dimensi?

11

Saya memiliki satu set titik data dalam ruang dimensi N. Selain itu, saya juga memiliki centroid di ruang dimensi-N yang sama. Apakah ada pendekatan yang dapat memungkinkan saya untuk memproyeksikan titik data ini ke ruang dua dimensi sambil menjaga informasi jarak relatif mereka di ruang asli. Apakah PCA yang benar?

pertanyaan kecil
sumber
1
Jika Anda ingin mencoba menjaga jarak, pemikiran pertama saya adalah penskalaan multidimensi pada jarak itu sendiri (yang terkait dengan PCA), tetapi karena Anda memiliki lokasi dan bukan hanya jarak, menurut pemahaman saya, PCA harus bekerja untuk itu .
Glen_b -Reinstate Monica
1
@Glen_b, Titik kunci adalah tidak MDS adalah untuk jarak masukan dan PCA adalah untuk koordinat input, tetapi yang berulang MDS cocok beberapa dimensi sementara PCA mempertahankan beberapa dimensi. Jadi MDS menjaga jarak agak lebih baik daripada PCA klasik. Jawaban untuk pertanyaannya adalah Ya, PCA cocok, tetapi MDS lebih cocok.
ttnphns
1
Ini sebagian besar yang dipelajari dalam bidang penanaman ruang metrik , yaitu bagaimana Anda dapat mengurangi dimensi data Anda sambil meminimalkan distorsi jarak.
Bitwise

Jawaban:

6

Kerangka umum yang menangani masalah Anda disebut reduksi dimensi. Anda ingin memproyeksikan data dari dimensi N ke 2 dimensi, sambil mempertahankan "informasi penting" dalam data Anda. Metode yang paling cocok tergantung pada distribusi data Anda, yaitu manifold N-dimensional. PCA akan muat pesawat menggunakan kriteria kuadrat terkecil. Ini mungkin akan bekerja buruk untuk contoh "swiss roll": swiss roll .

Metode yang lebih modern termasuk Kernel PCA, LLE, peta difusi dan representasi kamus yang jarang. Mengenai pelestarian jarak, beberapa metode dapat menjaga jarak non-euclidean.

Leeor
sumber
2
Penting untuk dicatat bahwa metode "pengurangan dimensi" biasanya tidak memelihara "informasi jarak relatif." Apakah mereka melakukannya atau tidak sebagian tergantung pada metode dan sebagian pada "jarak" yang dimaksudkan.
whuber
2

Seperti disebutkan dalam jawaban sebelumnya, ada sejumlah metode pengurangan dimensionalitas, dan satu hal penting untuk dipertimbangkan adalah apa yang ingin Anda wakili - apakah Anda tertarik dengan pengukuran jarak Euclidean? Atau metrik kesamaan di seluruh sampel?

Untuk yang pertama, PCA bisa sesuai. Ini biasanya digunakan dengan tindakan terus menerus seperti pengukuran sampel (hewan, tanaman, dll ...). Saya akan melihat ke menyebutkan lebih modern dalam jawaban sebelumnya juga.

Untuk yang terakhir, di mana Anda mungkin mencoba untuk membandingkan kesamaan menggunakan metrik jarak non-euclidean, ada beberapa metode yang baik seperti Prinsip Penahbisan Komponen (PCoA) dan Non-metric Multidimensional Scaling (NMDS). Contoh kapan Anda dapat menggunakan ini adalah ketika Anda membandingkan komunitas ekologis di antara area yang berbeda, dan Anda memiliki sejumlah jenis organisme yang berbeda yang ditemukan. Jadi, data Anda adalah data "hitung". Ada sejumlah metrik kesamaan seperti Jaccard, Sorensen, Bray-Curtis, yang secara efektif memungkinkan Anda memperkirakan seberapa mirip situs tersebut dalam komposisi organisme mereka. PCoA dan NMDS pada dasarnya memungkinkan Anda untuk memplot sampel (situs) untuk mewakili jarak ekologis (kesamaan), dan Anda memiliki skor untuk situs pada setiap sumbu.

Ada banyak buku bagus dan sumber daya lain untuk analisis multivariat. Cari "Penahbisan" di Google. Juga, ada paket R yang disebut 'vegan' yang sangat bagus untuk benar-benar melakukan banyak pekerjaan ini.

mtreg
sumber
0

Masalah Anda terdengar seperti aplikasi buku teks untuk penskalaan multidimensi . Pengantar yang baik dapat ditemukan di sini: http://www.mathpsyc.uni-bonn.de/doc/delbeke/delbeke.htm

Tentu saja Anda dapat mencoba PCA. Tetapi PCA tidak memiliki niat untuk menjaga informasi jarak relatif di ruang asli.

Weiwei
sumber