Banyak buku teks statistik memberikan ilustrasi intuitif tentang apa vektor eigen dari matriks kovarians:
Vektor u dan z membentuk vektor eigen (well, eigenaxes). Ini masuk akal. Tetapi satu hal yang membingungkan saya adalah bahwa kita mengekstrak vektor eigen dari matriks korelasi , bukan data mentah. Lebih lanjut, dataset mentah yang sangat berbeda dapat memiliki matriks korelasi yang identik. Sebagai contoh, berikut ini keduanya memiliki matriks korelasi:
Karena itu mereka memiliki vektor eigen yang menunjuk ke arah yang sama:
Tetapi jika Anda menerapkan interpretasi visual yang sama dari arah mana vektor eigen berada di data mentah, Anda akan mendapatkan vektor menunjuk ke arah yang berbeda.
Bisakah seseorang tolong beri tahu saya di mana kesalahan saya?
Sunting Kedua : Jika saya berani, dengan jawaban yang sangat bagus di bawah ini, saya dapat memahami kebingungan dan mengilustrasikannya.
Penjelasan visual sesuai dengan fakta bahwa vektor eigen yang diekstraksi dari matriks kovarians berbeda.
Vektor-vektor kovarian dan Eigen (Merah):
Vektor-vektor kovarian dan Eigen (Biru):
Matriks korelasi mencerminkan matriks kovarians dari variabel standar. Inspeksi visual dari variabel standar menunjukkan mengapa vektor eigen identik diekstraksi dalam contoh saya:
sumber
[PCA]
tag. Jika Anda ingin memfokuskan kembali pertanyaan, atau mengajukan pertanyaan baru (terkait) & tautan ke yang ini, sepertinya baik-baik saja, tapi saya pikir pertanyaan ini cukup PCA-ish untuk pantas tag.Jawaban:
Anda tidak perlu melakukan PCA di atas matriks korelasi; Anda dapat menguraikan matriks kovarian juga. Perhatikan bahwa ini biasanya akan menghasilkan solusi yang berbeda. (Untuk lebih lanjut tentang ini, lihat: PCA tentang korelasi atau kovarian? )
Pada gambar kedua Anda, korelasinya sama, tetapi kelompoknya terlihat berbeda. Mereka terlihat berbeda karena mereka memiliki kovarian yang berbeda. Namun, variansnya juga berbeda (misalnya, kelompok merah bervariasi pada rentang X1 yang lebih luas), dan korelasinya adalah kovarians dibagi dengan standar deviasi ( ). Akibatnya, korelasinya bisa sama.Covxy/SDxSDy
Sekali lagi, jika Anda melakukan PCA dengan kelompok-kelompok ini menggunakan matriks kovarian, Anda akan mendapatkan hasil yang berbeda daripada jika Anda menggunakan matriks korelasi.
sumber