Apa perbedaan antara analisis komponen utama dan penskalaan multidimensi?

133

Bagaimana perbedaan PCA dan MDS klasik? Bagaimana dengan MDS versus MDS non-metrik? Apakah ada saat ketika Anda lebih suka yang satu daripada yang lain? Bagaimana perbedaan interpretasinya?

pca multidimensional-scaling pcoa Stephen Turner
sumber

96

MDS metrik Torgerson klasik sebenarnya dilakukan dengan mengubah jarak menjadi kesamaan dan melakukan PCA (eigen-dekomposisi atau dekomposisi nilai-tunggal) pada mereka. [Nama lain dari prosedur ini ( distances between objects -> similarities between them -> PCA, di mana pemuatan adalah koordinat yang dicari) adalah Principal Coordinate Analysis atau PCoA .] Jadi, PCA bisa disebut algoritma MDS yang paling sederhana.

Non-metrik MDS didasarkan pada berulang ALSCAL atau algoritma PROXSCAL (atau algoritma yang mirip dengan mereka) yang merupakan teknik pemetaan lebih fleksibel daripada PCA dan dapat diterapkan untuk metrik MDS juga. Sementara PCA mempertahankan dimensi penting m untuk Anda, ALSCAL / PROXSCAL menyesuaikan konfigurasi dengan dimensi m (Anda telah menetapkan sebelumnya m ) dan ia mereproduksi perbedaan pada peta secara lebih langsung dan akurat daripada yang biasa dilakukan PCA (lihat bagian Ilustrasi di bawah).

Dengan demikian, MDS dan PCA mungkin tidak pada level yang sama untuk sejalan atau berlawanan satu sama lain. PCA hanyalah sebuah metode sedangkan MDS adalah kelas analisis. Sebagai pemetaan, PCA adalah kasus MDS tertentu. Di sisi lain, PCA adalah kasus khusus dari analisis Faktor yang, sebagai pengurangan data, lebih dari sekedar pemetaan, sedangkan MDS hanyalah pemetaan.

Adapun pertanyaan Anda tentang MDS metrik vs MDS non-metrik ada sedikit komentar karena jawabannya langsung. Jika saya yakin perbedaan input saya sangat dekat dengan jarak euclidean sehingga transformasi linear akan cukup untuk memetakannya dalam ruang dimensi m, saya akan lebih memilih metrik MDS. Jika saya tidak percaya, maka transformasi monoton diperlukan, menyiratkan penggunaan MDS non-metrik.

Catatan tentang terminologi untuk pembaca. Term Classic (al) MDS (CMDS) dapat memiliki dua arti yang berbeda dalam literatur yang luas tentang MDS, sehingga ambigu dan harus dihindari. Satu definisi adalah bahwa CMDS adalah sinonim dari MDS metrik Torgerson. Definisi lain adalah bahwa CMDS adalah MDS apa pun (dengan algoritma apa pun; analisis metrik atau nonmetrik) dengan input matriks tunggal (untuk model yang ada menganalisis banyak matriks sekaligus - model Individual "INDSCAL" dan model Replicated).

Ilustrasi jawaban . Beberapa awan titik (elips) sedang dipetakan pada peta satu-dimensi. Sepasang poin ditampilkan dalam titik merah.

MDS iteratif atau "benar" bertujuan untuk merekonstruksi jarak berpasangan secara berpasangan antar objek. Untuk itu adalah tugas MDS . Berbagai kriteria stres atau ketidakcocokan bisa diminimalisir antara o jarak riginal dan jarak pada m ap: , , . Algoritme mungkin (MDS non-metrik) atau tidak (MDS metrik) mencakup transformasi monotonik dengan cara ini. $\|D_o-D_m\|_2^2$ $\|D_o^2-D_m^2\|_1$ $\|D_o-D_m\|_1$

MDS berbasis PCA (Torgerson's, atau PCoA) tidak lurus. Ini meminimalkan jarak kuadrat antara objek di ruang asli dan gambar mereka di peta. Ini bukan tugas MDS yang asli; itu berhasil, seperti MDS, hanya sejauh mana sumbu kepala sekolah junior yang dibuang lemah. Jika menjelaskan lebih banyak variasi daripada , yang pertama dapat saja secara substansial mencerminkan jarak berpasangan di awan, terutama untuk titik yang terletak berjauhan di sepanjang elips. MDS iteratif akan selalu menang, dan terutama ketika peta diinginkan sangat rendah dimensi. MDS iteratif juga akan lebih berhasil ketika elips awan tipis, tetapi akan memenuhi tugas mds lebih baik daripada PCoA. Dengan properti matriks double-centration (dijelaskan di sini $P_1$ $P_2$ ) tampaknya PCoA meminimalkan , yang berbeda dari salah satu minimisasi di atas. $\|D_o\|_2^2-\|D_m\|_2^2$

Sekali lagi, PCA memproyeksikan poin cloud pada subruang penghematan semua-badan yang paling menguntungkan. Ini tidak memproyeksikan jarak berpasangan , lokasi relatif dari titik pada yang paling hemat ruang bagian dalam yang menghormati, sebagai berulang MDS melakukannya. Meskipun demikian, secara historis PCoA / PCA dianggap sebagai salah satu metode MDS metrik.

ttnphns
sumber

3

(+1) Saya menyukai kedua jawaban, yang ini mungkin sedikit lebih.

Dmitrij Celov

Tautan PDF yang terkait dengan PCoA. Ini dapat ditemukan di Web Archive: web.archive.org/web/20160315120635/http://forrest.psych.unc.edu/…

Pierre

49

Uhm ... sangat berbeda. Di PCA, Anda diberi data kontinu multivarian (vektor multivarian untuk setiap subjek), dan Anda mencoba mencari tahu jika Anda tidak membutuhkan banyak dimensi untuk membuat konsepnya. Dalam MDS (metrik), Anda diberi matriks jarak antara objek, dan Anda mencoba untuk mencari tahu apa lokasi objek-objek ini di ruang angkasa (dan apakah Anda memerlukan ruang 1D, 2D, 3D, dll.). Dalam MDS non-metrik, Anda hanya tahu bahwa objek 1 dan 2 lebih jauh dari objek 2 dan 3, jadi Anda mencoba mengukurnya, selain menemukan dimensi dan lokasi.

Dengan rentang imajinasi yang menonjol, Anda dapat mengatakan bahwa tujuan umum PCA dan MDS adalah memvisualisasikan objek dalam 2D atau 3D. Tetapi mengingat betapa berbedanya inputnya, metode ini tidak akan didiskusikan sebagai hal yang sangat terkait dalam buku teks multivarian apa pun. Saya akan menebak bahwa Anda dapat mengubah data yang dapat digunakan untuk PCA menjadi data yang dapat digunakan untuk MDS (katakanlah, dengan menghitung jarak Mahalanobis antara objek, menggunakan matriks kovarians sampel), tetapi itu akan segera mengakibatkan hilangnya informasi: MDS hanya didefinisikan ke atas ke lokasi dan rotasi, dan dua yang terakhir dapat dilakukan lebih informatif dengan PCA.

Jika saya ingin menunjukkan secara singkat kepada seseorang hasil MDS non-metrik dan ingin memberi mereka gambaran kasar tentang apa yang dilakukannya tanpa merinci, saya dapat mengatakan:

Mengingat ukuran-ukuran kesamaan atau ketidaksamaan yang kita miliki, kita mencoba memetakan objek / subjek kita sedemikian rupa sehingga 'kota-kota' yang mereka buat memiliki jarak di antara mereka yang sedekat mungkin dengan ukuran-ukuran kesamaan ini seperti yang dapat kita buat. Namun, kami hanya dapat memetakannya dengan sempurna dalam ruang dimensi, jadi saya mewakili dua dimensi paling informatif di sini - agak seperti apa yang akan Anda lakukan dalam PCA jika Anda menunjukkan gambar dengan dua komponen utama terkemuka. $n$

Tugas
sumber

18

Bukankah PCA diterapkan pada matriks korelasi yang setara dengan MDS dengan jarak euclidean dihitung pada variabel standar?

chl

Jadi, jika saya secara singkat menunjukkan kepada seseorang hasil dari MDS non-metrik dan ingin memberi mereka gambaran kasar tentang apa yang dilakukannya tanpa merinci, dapatkah saya mengatakan "ini melakukan sesuatu yang mirip dengan PCA" tanpa menyesatkan?

Freya Harrison

6

Saya akan mengatakan, "Mengingat ukuran kesamaan atau perbedaan yang kita miliki, kita mencoba memetakan objek / subjek kita sedemikian rupa sehingga 'kota' yang mereka buat memiliki jarak di antara mereka yang sedekat mungkin dengan ukuran kesamaan ini sebagai kita bisa membuatnya. Kita hanya bisa memetakannya dengan sempurna di ruang dimensi, jadi saya mewakili dimensi paling informatif di sini - agak seperti apa yang akan Anda lakukan di PCA jika Anda menunjukkan gambar dengan dua komponen utama terkemuka ".

n

$n$

Tugas

+1 Keren - bagi saya, komentar ini mengikat jawaban Anda dengan baik. Terima kasih.

Freya Harrison

47

Dua jenis metrik MDS

Tugas metrik penskalaan multidimensi (MDS) dapat dirumuskan secara abstrak sebagai berikut: diberi matriks jarak berpasangan antara titik, temukan penyisipan titik data dimensi rendah dalam sedemikian rupa sehingga Jarak Euclidean di antara mereka mendekati jarak yang diberikan: $n\times n$ $\mathbf D$ $n$ $\mathbb R^k$

‖ x_{i} - x_{j} ‖ \approx D_{i j} .

$\|\mathbf x_i - \mathbf x_j\|\approx D_{ij}.$

Jika "perkiraan" di sini dipahami dalam pengertian kesalahan rekonstruksi yang biasa, yaitu jika tujuannya adalah untuk meminimalkan fungsi biaya yang disebut "stres": maka solusinya tidak setara dengan PCA. Solusi tidak diberikan oleh rumus tertutup apa pun, dan harus dihitung dengan algoritma iteratif khusus.

Stress \sim ‖ D - ‖ x_{i} - x_{j} ‖ ‖^{2},

$\text{Stress} \sim \Big\|\mathbf D - \|\mathbf x_i - \mathbf x_j\|\Big\|^2,$

"MDS Klasik", juga dikenal sebagai "Torgerson MDS", menggantikan fungsi biaya ini dengan yang terkait tetapi tidak setara , yang disebut "regangan": yang berupaya meminimalkan kesalahan rekonstruksi produk skalar terpusat alih-alih jarak. Ternyata dapat dihitung dari (jika adalah jarak Euclidean) dan meminimalkan kesalahan rekonstruksi persis seperti yang dilakukan PCA, seperti yang ditunjukkan pada bagian berikutnya.

Strain \sim ‖ K_{c} - ⟨ x_{i}, x_{j} ⟩ ‖^{2},

$\text{Strain} \sim \Big\|\mathbf K_c - \langle\mathbf x_i, \mathbf x_j\rangle\Big\|^2,$

K_{c}

$\mathbf K_c$

D

$\mathbf D$

D

$\mathbf D$

K_{c}

$\mathbf K_c$

MDS Klasik (Torgerson) pada jarak Euclidean setara dengan PCA

Biarkan data dikumpulkan dalam matriks dari ukuran dengan pengamatan di baris dan fitur di kolom. Biarkan menjadi matriks terpusat dengan rata-rata kolom dikurangi. $\mathbf X$ $n \times k$ $\mathbf X_c$

Kemudian jumlah PCA untuk melakukan dekomposisi nilai singular , dengan kolom menjadi komponen utama. Cara yang umum untuk mendapatkannya adalah melalui dekomposisi eigend dari matriks kovarians , tetapi cara lain yang mungkin adalah dengan melakukan komposisi eigendecomposisi dari matriks Gram : komponen utama adalah vektor eigen yang diskalakan oleh akar kuadrat dari nilai eigen masing-masing. $\mathbf X_c = \mathbf {USV^\top}$ $\mathbf{US}$ $\frac{1}{n}\mathbf X_c^\top \mathbf X^\vphantom{\top}_c$ $\mathbf K_c = \mathbf X^\vphantom{\top}_c \mathbf X^\top_c=\mathbf U \mathbf S^2 \mathbf U^\top$

Sangat mudah untuk melihat bahwa , di mana adalah sebuah matriks . Dari sini kita segera mendapatkan mana adalah matriks Gram dari data yang tidak di-pusat. Ini berguna: jika kita memiliki matriks Gram dari data yang tidak terpusat, kita dapat memusatkannya secara langsung, tanpa kembali ke itu sendiri. Operasi ini kadang-kadang disebut $\mathbf X_c = (\mathbf I - \frac{1}{n}\mathbf 1_n)\mathbf X$ $\mathbf 1_n$ $n \times n$

K_{c} = (I - \frac{1_{n}}{n}) K (I - \frac{1_{n}}{n}) = K - \frac{1_{n}}{n} K - K \frac{1_{n}}{n} + \frac{1_{n}}{n} K \frac{1_{n}}{n},

$\mathbf K_c = \left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\mathbf K\left(\mathbf I - \frac{\mathbf 1_n}{n}\right) = \mathbf K - \frac{\mathbf 1_n}{n} \mathbf K - \mathbf K \frac{\mathbf 1_n}{n} + \frac{\mathbf 1_n}{n} \mathbf K \frac{\mathbf 1_n}{n},$

K = X X^{⊤}

$\mathbf K = \mathbf X \mathbf X^\top$

X

$\mathbf X$ double-centering : perhatikan bahwa jumlah tersebut berarti mengurangkan rata-rata baris dan rata-rata kolom dari (dan menambahkan kembali rata-rata global yang dikurangi dua kali), sehingga baik sarana baris dan rata-rata kolom sama dengan nol.

K

$\mathbf K$

K_{c}

$\mathbf K_c$

Sekarang pertimbangkan sebuah matriks dari jarak Euclidean berpasangan dengan. Bisakah matriks ini dikonversi menjadi untuk melakukan PCA? Ternyata jawabannya adalah ya. $n \times n$ $\mathbf D$ $D_{ij} = \|\mathbf x_i - \mathbf x_j\|$ $\mathbf K_c$

Memang, oleh hukum cosinus kita melihat bahwa Jadi berbeda dari hanya dengan beberapa konstanta baris dan kolom (di sini berarti kuadrat elemen-bijaksana!). Berarti jika kita menggandakannya, kita akan mendapatkan :

\begin{aligned} D_{i j}^{2} = ‖ x_{i} - x_{j} ‖^{2} & = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 ⟨ x_{i} - \bar{x}, x_{j} - \bar{x} ⟩ \\ = ‖ x_{i} - \bar{x} ‖^{2} + ‖ x_{j} - \bar{x} ‖^{2} - 2 [K_{c}]_{i j} . \end{aligned}

$\begin{align} D_{ij}^2 = \|\mathbf x_i - \mathbf x_j\|^2 &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2\langle\mathbf x_i - \bar{\mathbf x}, \mathbf x_j - \bar{\mathbf x} \rangle \\ &= \|\mathbf x_i - \bar{\mathbf x}\|^2 + \|\mathbf x_j - \bar{\mathbf x}\|^2 - 2[K_c]_{ij}. \end{align}$

- D^{2} / 2

$-\mathbf D^2/2$

K_{c}

$\mathbf K_c$

D^{2}

$\mathbf D^2$

K_{c}

$\mathbf K_c$

K_{c} = - (I - \frac{1_{n}}{n}) \frac{D^{2}}{2} (I - \frac{1_{n}}{n}) .

$\mathbf K_c = -\left(\mathbf I - \frac{\mathbf 1_n}{n}\right)\frac{\mathbf D^2}{2}\left(\mathbf I - \frac{\mathbf 1_n}{n}\right).$

Yang berarti bahwa dimulai dari matriks Euclidean distance berpasangan kita dapat melakukan PCA dan mendapatkan komponen utama. Inilah yang dilakukan oleh MDS klasik (Torgerson): , jadi hasilnya setara dengan PCA. $\mathbf D$ $\mathbf D \mapsto \mathbf K_c \mapsto \mathbf{US}$

Tentu saja, jika pengukuran jarak lain dipilih sebagai ganti, maka MDS klasik akan menghasilkan sesuatu yang lain. $\|\mathbf x_i - \mathbf x_j\|$

Referensi: Elemen Pembelajaran Statistik , bagian 18.5.2.

amuba
sumber

Saya harus mengakui bahwa saya belum memikirkan hal ini: tapi inilah "pemeriksaan masuk akal" yang saya pikirkan: dari dimensi matriks, bukankah seharusnya matriks Gram Anda adalah yang merupakan ?

X X^{T}

$\mathbf X \mathbf X^T$

n \times n

$n \times n$

cbeleites

Terima kasih, @cbeleites, tentu saja Anda benar - itu hanya kesalahan ketik. Akan memperbaikinya sekarang. Beri tahu saya jika Anda melihat kesalahan lain (atau merasa bebas untuk mengedit langsung).

amoeba

1

+1. Dan terima kasih telah menunjukkan dengan matematika apa yang dinyatakan dalam paragraf pertama jawaban saya.

ttnphns

2

+1 Saya berharap ini adalah jawaban yang diterima / teratas. Saya pikir itu mudah.

Zhubarb

35

PCA menghasilkan EXACT hasil yang sama seperti MDS klasik jika jarak Euclidean digunakan.

Saya mengutip Cox & Cox (2001), hal 43-44:

Ada dualitas antara analisis komponen kepala sekolah dan PCO [analisis koordinat utama, alias MDS klasik] di mana perbedaan diberikan oleh jarak Euclidean.

Bagian dalam Cox & Cox menjelaskannya dengan cukup jelas:

Bayangkan Anda memiliki = atribut dari produk berdasarkan dimensi , rata-rata terpusat $X$ $n$ $p$
PCA diperoleh dengan menemukan vektor eigen dari matriks kovarians ~ (dibagi dengan n-1) - panggil vektor eigen , dan nilai eigen . $X'X$ $\xi$ $\mu$
MDS dicapai dengan terlebih dahulu mengkonversi ke dalam matriks jarak, di sini, jarak Euclidean, yaitu, , kemudian menemukan vektor eigen - sebut vektor eigen , dan eigenvalues . $X$ $XX'$ $v$ $\lambda$
hal 43: "Ini adalah hasil yang diketahui bahwa nilai eigen dari sama dengan nilai untuk , bersama dengan nilai eigen nol np ekstra." Jadi, untuk , = $XX'$ $X'X$ $i < p$ $\mu_i$ $\lambda_i$
Kembali ke definisi vektor eigen, pertimbangkan nilai eigen . $i^{th}$ $X'Xv_i = \lambda_i v_i$
Premultiply dengan , kita dapatkan $v_i$ $X'$ $(X'X)X'v_i = \lambda_i X'v_i$
Kami juga memiliki . Karena , kita mendapatkannya untuk . $X'X \xi_i = \mu_i \xi_i$ $\lambda_i = \mu_i$ $\xi_i = X'v_i$ $i<p$

pengguna1705135
sumber

2

Saya melakukan beberapa pengkodean dalam R, dan menggunakan cmdscale sebagai implementasi MDS klasik dan prcomp untuk PCA - namun hasilnya, tidak sama ... apakah ada poin yang saya lewatkan ?!

user4581

3

same results as classical MDS. Dengan "MDS klasik" Anda harus berarti MDS Torgerson di sini. Maka pernyataan tersebut memang benar, untuk Torgerson ini MDS adalah benar-benar PCA (hanya mulai dari matriks jarak). Jika mendefinisikan "MDS klasik" secara berbeda (lihat jawaban saya) maka pernyataan itu tidak benar.

ttnphns

7

Tunggu, bagaimana bisa XX 'memberikan jarak Euclidean ?? XX 'adalah produk dalam - jika matriks distandarisasi maka akan memberikan kesamaan cosinus. Jarak Euclidean membutuhkan pengurangan dan akar kuadrat.

ShainaR

@ user1705135 Saya bingung dengan poin Anda 5. Bukankah seharusnya ?

X X^{'} v_{i} = λ_{i} v_{i}

$XX'v_i = \lambda_i v_i$

Michael

4

Perbandingan: "Metrik MDS memberikan hasil SAMA sebagai PCA" - secara prosedural - ketika kita melihat cara SVD digunakan untuk mendapatkan yang optimal. Tetapi, kriteria dimensi tinggi yang dipertahankan berbeda. PCA menggunakan matriks kovarians terpusat sedangkan MDS menggunakan matriks gram yang diperoleh dengan matriks jarak berpusat ganda.

Akan menempatkan perbedaan secara matematis: PCA dapat dilihat sebagai memaksimalkan atas bawah kendala bahwa adalah orthogonal, sehingga memberikan sumbu / komponen utama. Dalam multidimensi skala matriks gram (matriks PSD yang dapat direpresentasikan sebagai ) dihitung dari jarak euclidean antara baris di dan berikut diminimalkan selama . kecilkan: . $Tr(X^T(I-\frac{1}{n}ee^T)X)$ $X$ $X$ $Z^TZ$ $X$ $Y$ $||G-Y^TY||_{F}^{2}$

mobil jenazah
sumber

Apa perbedaan antara analisis komponen utama dan penskalaan multidimensi?

Jawaban:

Dua jenis metrik MDS

MDS Klasik (Torgerson) pada jarak Euclidean setara dengan PCA