Visualisasi sejuta, edisi PCA

31

Apakah mungkin untuk memvisualisasikan output dari Analisis Komponen Utama dengan cara yang memberikan wawasan lebih dari sekadar tabel ringkasan? Apakah mungkin untuk melakukannya ketika jumlah pengamatan besar, katakan ~ 1e4? Dan mungkinkah melakukannya di R [lingkungan lain diterima]?

gappy
sumber
2
Beberapa pertanyaan: Berapa banyak komponen yang Anda miliki? Selain ukuran sampel, apakah ada sesuatu yang membuat tampilan output PCA ini harus berbeda dari tampilan variabel kontinu lainnya yang mungkin dihadapi? Apakah Anda mencoba kontras skor kelompok yang berbeda, dan jika demikian berapa? Secara umum, apa yang ingin Anda capai dengan display Anda?
rolando2

Jawaban:

53

The biplot adalah alat yang berguna untuk memvisualisasikan hasil PCA. Ini memungkinkan Anda untuk memvisualisasikan skor komponen utama dan arah secara bersamaan. Dengan 10.000 pengamatan Anda mungkin akan mengalami masalah dengan plot yang berlebihan. Alpha blending bisa membantu di sana.

Berikut ini adalah data biplot PC dari data anggur dari repositori UCI ML :

PC Biplot of Wine Data from  UCI ML Repository

Poin sesuai dengan skor PC1 dan PC2 dari setiap pengamatan. Panah mewakili korelasi variabel dengan PC1 dan PC2. Lingkaran putih menunjukkan batas maksimum teoritis panah. Elips adalah data elips 68% untuk masing-masing dari 3 varietas anggur dalam data.

Saya telah membuat kode untuk membuat plot ini tersedia di sini .

vqv
sumber
5
Tambahan yang sangat dinamis.
rolando2
1
p×2VVVT
V
4

Plot Wachter dapat membantu Anda memvisualisasikan nilai eigen PCA Anda. Ini pada dasarnya adalah plot QQ dari nilai eigen terhadap distribusi Marchenko-Pastur. Saya punya contoh di sini: Wachter plot showing a single dominant eigenvalueAda satu nilai eigen dominan yang berada di luar distribusi Marchenko-Pastur. Kegunaan plot semacam ini tergantung pada aplikasi Anda.

shabbychef
sumber
7
Akan sangat membantu untuk mengetahui lebih lanjut di sini (mungkin beberapa penjelasan tambahan & / atau beberapa tautan bermanfaat). Apa distribusi Marchenko-Pastur? Bagaimana hubungannya dengan PCA? Apa artinya bagi hasil Anda jika itu berlaku atau tidak? (etc)
gung - Reinstate Monica
0

Anda juga bisa menggunakan paket psikis.

Ini berisi metode plot.factor, yang akan memplot komponen yang berbeda satu sama lain dalam gaya matriks sebar.

richiemorrisroe
sumber