Dalam analisis komponen utama (PCA), orang dapat memilih matriks kovarian atau matriks korelasi untuk menemukan komponen (dari vektor eigen masing-masing). Ini memberikan hasil yang berbeda (beban dan skor PC), karena vektor eigen antara kedua matriks tidak sama. Pemahaman saya adalah bahwa ini disebabkan oleh fakta bahwa vektor data mentah dan standarisasi Z tidak dapat dihubungkan melalui transformasi ortogonal. Secara matematis, matriks yang sama (yaitu terkait dengan transformasi ortogonal) memiliki nilai eigen yang sama, tetapi tidak harus vektor eigen yang sama.
Ini menimbulkan beberapa kesulitan dalam pikiran saya:
Apakah PCA benar-benar masuk akal, jika Anda bisa mendapatkan dua jawaban berbeda untuk set data awal yang sama, keduanya mencoba mencapai hal yang sama (= mencari arah varians maksimum)?
Ketika menggunakan pendekatan matriks korelasi, setiap variabel sedang distandarisasi (diskalakan) oleh standar deviasi masing-masing, sebelum menghitung PC. Bagaimana, kemudian, apakah masih masuk akal untuk menemukan arah varians maksimum jika data telah diskalakan / dikompresi secara berbeda sebelumnya? Saya tahu bahwa PCA berbasis korelasi sangat nyaman (variabel standar tidak berdimensi, sehingga kombinasi liniernya dapat ditambahkan; keuntungan lain juga didasarkan pada pragmatisme), tetapi apakah itu benar?
Tampak bagi saya bahwa PCA berbasis kovarian adalah satu-satunya yang benar-benar benar (bahkan ketika varians variabel sangat berbeda), dan bahwa setiap kali versi ini tidak dapat digunakan, PCA berbasis korelasi tidak boleh digunakan juga.
Saya tahu bahwa ada utas ini: PCA tentang korelasi atau kovarian? - tetapi tampaknya hanya berfokus pada menemukan solusi pragmatis, yang mungkin atau mungkin juga tidak menjadi solusi yang aljabar.
sumber
Jawaban:
Saya harap tanggapan ini untuk dua pertanyaan Anda akan menenangkan kekhawatiran Anda:
Teks dan gambar berikutnya ditambahkan oleh @whuber (Saya berterima kasih padanya. Juga, lihat komentar saya di bawah)
Berikut adalah contoh dua dimensi yang menunjukkan mengapa masih masuk akal untuk menemukan sumbu utama dari data standar (ditunjukkan di sebelah kanan). Perhatikan bahwa di plot sebelah kanan awan masih memiliki "bentuk" meskipun varians di sepanjang sumbu koordinat sekarang persis sama (hingga 1,0). Demikian pula, dalam dimensi yang lebih tinggi, awan titik terstandarisasi akan memiliki bentuk non-bola meskipun varians sepanjang semua sumbu sama persis (hingga 1,0). Sumbu utama (dengan nilai eigen yang sesuai) menggambarkan bentuk itu. Cara lain untuk memahami hal ini adalah dengan mencatat bahwa semua penskalaan dan pemindahan yang terjadi ketika standardisasi variabel hanya terjadi dalam arah sumbu koordinat dan bukan pada arah utama itu sendiri.
Apa yang terjadi di sini secara geometris sangat intuitif dan jelas sehingga akan sulit untuk menggambarkan ini sebagai "operasi kotak hitam": sebaliknya, standardisasi dan PCA adalah beberapa hal paling mendasar dan rutin yang kami lakukan dengan data secara berurutan. untuk memahaminya.
Dilanjutkan oleh @ttnphns
Kapan seseorang akan lebih suka melakukan PCA (atau analisis faktor atau jenis analisis serupa lainnya) pada korelasi (yaitu pada variabel standar-z) daripada melakukannya pada kovarian (yaitu pada variabel terpusat)?
sumber
Berbicara dari sudut pandang praktis - mungkin tidak populer di sini - jika Anda memiliki data yang diukur pada skala yang berbeda, maka pergilah dengan korelasi ('penskalaan UV' jika Anda seorang ahli kimia), tetapi jika variabelnya berada pada skala yang sama dan ukurannya penting (mis. dengan data spektroskopi), maka kovarian (hanya memusatkan data) lebih masuk akal. PCA adalah metode yang bergantung pada skala dan juga transformasi log dapat membantu dengan data yang sangat miring.
Menurut pendapat saya yang sederhana berdasarkan 20 tahun aplikasi praktis dari chemometrics Anda harus bereksperimen sedikit dan melihat apa yang terbaik untuk tipe data Anda. Pada akhirnya Anda harus bisa mereproduksi hasil Anda dan mencoba membuktikan prediksi kesimpulan Anda. Bagaimana Anda sampai di sana sering merupakan kasus coba-coba tetapi yang penting adalah bahwa apa yang Anda lakukan didokumentasikan dan direproduksi.
sumber
sumber
There seems little point
dalam PCA tentang korelasi. Nah, jika Anda harus tetap dekat dengan data mentah ("data fisik", seperti Anda menyebutnya aneh), Anda benar-benar tidak boleh menggunakan korelasi karena itu sesuai dengan data ("terdistorsi") lainnya.X'X
matriks. Formulir ini bahkan "lebih dekat" ke data asli daripada cov-PCA karena tidak ada pemusatan variabel yang dilakukan. Dan hasilnya biasanya sangat berbeda . Anda juga bisa melakukan PCA pada kosmetik. Orang-orang melakukan PCA pada semua versi dari matriks SSCP , meskipun kovariansi atau korelasi paling sering digunakan.