Saat ini saya sedang mempersiapkan presentasi untuk kursus universitas di "Analisis Data Visual". Dan salah satu topik saya adalah visualisasi "Koordinat Bintang". Koordinat Bintang
Ketika Star Coordinates melakukan transformasi data dimensi tinggi, dan teknik PCA yang terkenal juga melakukannya, saya bertanya-tanya apakah PCA dapat ditiru oleh Star Coordinates? Saya pikir mengatur ulang sumbu koordinat sedemikian rupa sehingga mereka mewakili kombinasi linear dari variabel asli? Tapi ini hanya ide. Adakah yang bisa mengkonfirmasi atau menyangkal hal ini?
data-visualization
pca
large-data
VisioGuy
sumber
sumber
mimic PCA by Star Coordinates
terlalu samar untuk menimbulkan masalah nyata (sehingga pertanyaan dapat diajukan). Seseorang mungkin menyarankan Anda untuk mencoba melakukannya terlebih dahulu, dan kemudian - jika Anda mendapatkan masalah atau keraguan - ajukan pertanyaan.Jawaban:
PCA dan "koordinat bintang" melakukan hal yang berbeda. Karena koordinat bintang membakukan semua nilai, perbandingan yang adil akan menerapkan PCA ke matriks korelasi (bukan matriks kovarians), yang merupakan cara lain untuk menstandarkan nilai-nilai tersebut.
PCA mengidentifikasi sistem koordinat yang disesuaikan dengan bentuk data, sedangkan koordinat bintang didasarkan pada koordinat yang diberikan yang semula dalam data.
Ini membuat PCA jauh lebih fleksibel untuk mengungkap hubungan di antara data. "Koordinat Bintang", sebaliknya, tidak jauh lebih banyak daripada grafik 2D informasi univariat .
PCA (ketika dilakukan pada matriks korelasi) menggunakan sarana data untuk asal dan standar deviasi mereka untuk skala. Koordinat bintang menggunakan data minimum untuk asal dan kisarannya untuk skala.
Minima dan rentang jauh lebih sensitif terhadap data yang jauh dari standar deviasi, membuat koordinat bintang kurang cocok untuk eksplorasi data keperluan umum.
Dengan demikian, masing-masing memiliki kekuatan - meskipun kekuatan koordinat bintang relatif terhadap PCA sulit dipahami.
Sebagai contoh, perhatikan dua dataset 3D ini. Masing-masing terdiri dari 300 titik dan di masing-masing titik awan memiliki bentuk "pancake" elips yang sangat datar. (Nilai singular dari masing-masing matriks korelasi mendekati .) Baris atas gambar menyajikan matriks korelasi, baris kedua menunjukkan pandangan awan titik dalam pseudo 3D (berorientasi sekitar untuk menangkap dua komponen utama terbesar), dan baris bawah adalah gambar "koordinat bintang" dari titik yang sama.{ 2 , 1 , .01 }
Karena orientasi yang berbeda dari titik awan ini relatif terhadap sumbu koordinat asli, plot koordinat bintang sama sekali berbeda. Ini adalah karakteristik: koordinat bintang memberikan (sangat terbatas) informasi tentang koordinat asli sementara PCA mengungkapkan hubungan antara koordinat.
Anda juga dapat melihat bahwa koordinat bintang adalah semacam proyeksi "tidak disengaja": kadang-kadang mereka akan menangkap komponen utama data, seperti di versi kiri, dan kadang-kadang mereka akan menangkap komponen besar dan kecil (seperti di tangan kanan) , dan di waktu lain (tidak diilustrasikan) mereka hanya menangkap komponen kecil (dan semua titik terkelompok padat di dekat titik asal, hampir tidak menunjukkan apa-apa).
sumber