Bingung tentang penjelasan visual vektor eigen: bagaimana set data yang berbeda secara visual dapat memiliki vektor eigen yang sama?

10

Banyak buku teks statistik memberikan ilustrasi intuitif tentang apa vektor eigen dari matriks kovarians:

masukkan deskripsi gambar di sini

Vektor u dan z membentuk vektor eigen (well, eigenaxes). Ini masuk akal. Tetapi satu hal yang membingungkan saya adalah bahwa kita mengekstrak vektor eigen dari matriks korelasi , bukan data mentah. Lebih lanjut, dataset mentah yang sangat berbeda dapat memiliki matriks korelasi yang identik. Sebagai contoh, berikut ini keduanya memiliki matriks korelasi:

[10.970.971]

Vektor eigen

Karena itu mereka memiliki vektor eigen yang menunjuk ke arah yang sama:

[.71.71.71.71]

Tetapi jika Anda menerapkan interpretasi visual yang sama dari arah mana vektor eigen berada di data mentah, Anda akan mendapatkan vektor menunjuk ke arah yang berbeda.

Bisakah seseorang tolong beri tahu saya di mana kesalahan saya?

Sunting Kedua : Jika saya berani, dengan jawaban yang sangat bagus di bawah ini, saya dapat memahami kebingungan dan mengilustrasikannya.

  1. Penjelasan visual sesuai dengan fakta bahwa vektor eigen yang diekstraksi dari matriks kovarians berbeda.

    Vektor-vektor kovarian dan Eigen (Merah):

    [1111][.7.72.72.7]

    Vektor-vektor kovarian dan Eigen (Biru):

    [.25.5.51][.43.9.9.43]
  2. Matriks korelasi mencerminkan matriks kovarians dari variabel standar. Inspeksi visual dari variabel standar menunjukkan mengapa vektor eigen identik diekstraksi dalam contoh saya:

masukkan deskripsi gambar di sini

Sue Doh Nimh
sumber
3
Jika Anda ingin mengevaluasi korelasi , maka Anda harus menggambar plot sebar Anda dengan skala di mana standar deviasi komponen sama. Itu tidak terjadi di salah satu gambar Anda (kecuali mungkin untuk titik-titik merah di yang kedua), yang mungkin menjadi salah satu alasan Anda menganggap ini membingungkan.
whuber
3
Saya menghargai Anda telah menggambarkan pertanyaan Anda. Itu membantu orang memahaminya & menambah nilai utas untuk referensi di masa mendatang. Perlu diketahui, bahwa ~ 10% pria buta warna merah-hijau. Dengan 2 warna, merah & biru mungkin lebih aman.
gung - Reinstate Monica
Banyak terima kasih, saya telah mengoreksi warna seperti yang Anda sarankan
Sue Doh Nimh
2
Tidak masalah, @SueDohNimh. Terima kasih telah membuatnya masuk akal untuk semua. Pada nada yang berbeda, saya akan menyimpan [PCA]tag. Jika Anda ingin memfokuskan kembali pertanyaan, atau mengajukan pertanyaan baru (terkait) & tautan ke yang ini, sepertinya baik-baik saja, tapi saya pikir pertanyaan ini cukup PCA-ish untuk pantas tag.
gung - Reinstate Monica
Kerja bagus, @SueDohNimh. Anda juga bisa menambahkan itu sebagai jawaban untuk pertanyaan Anda sendiri alih-alih diedit, jika Anda mau.
gung - Reinstate Monica

Jawaban:

9

Anda tidak perlu melakukan PCA di atas matriks korelasi; Anda dapat menguraikan matriks kovarian juga. Perhatikan bahwa ini biasanya akan menghasilkan solusi yang berbeda. (Untuk lebih lanjut tentang ini, lihat: PCA tentang korelasi atau kovarian? )

Pada gambar kedua Anda, korelasinya sama, tetapi kelompoknya terlihat berbeda. Mereka terlihat berbeda karena mereka memiliki kovarian yang berbeda. Namun, variansnya juga berbeda (misalnya, kelompok merah bervariasi pada rentang X1 yang lebih luas), dan korelasinya adalah kovarians dibagi dengan standar deviasi ( ). Akibatnya, korelasinya bisa sama. Covxy/SDxSDy

Sekali lagi, jika Anda melakukan PCA dengan kelompok-kelompok ini menggunakan matriks kovarian, Anda akan mendapatkan hasil yang berbeda daripada jika Anda menggunakan matriks korelasi.

gung - Pasang kembali Monica
sumber
2
+1 Anda mungkin juga memperhatikan bahwa dengan dua variabel, matriks korelasi selalu memiliki dua vektor eigen yang sama, dan , tidak peduli berapa pun nilai korelasinya. (1,1)(1,1)
whuber
1
Memberi +1 pada apa yang ditulis @whuber, tetapi perhatikan bahwa nilai eigen yang sesuai bergantung pada nilai korelasi.
amoeba
Ini benar, tetapi vektor eigen dari matriks Cov dapat bervariasi berdasarkan korelasinya.
gung - Reinstate Monica
1
Hai teman-teman, terima kasih banyak. Saya sadar bahwa vektor eigen yang berbeda muncul dari menggunakan matriks kovarian; ini adalah sumber keprihatinan lebih lanjut karena saya membuat saya khawatir bahwa dengan menggunakan matriks korelasi sebagai gantinya saya mengurangi informasi yang digunakan dan karena itu menjadi kurang akurat. Apakah masuk akal untuk menyimpulkan berdasarkan tanggapan Anda bahwa interpretasi visual yang disediakan hanya benar-benar berlaku untuk vektor eigen dari matriks kovarians dari data mentah daripada matriks korelasi?
Sue Doh Nimh
1
Tidak juga, @SueDohNimh. Anda dapat menggunakan interpretasi visual, cukup standarisasi variabel Anda terlebih dahulu jika Anda ingin menggunakan matriks korelasi.
gung - Reinstate Monica