PCA tentang korelasi atau kovarian: apakah PCA tentang korelasi pernah masuk akal? [Tutup]

32

Dalam analisis komponen utama (PCA), orang dapat memilih matriks kovarian atau matriks korelasi untuk menemukan komponen (dari vektor eigen masing-masing). Ini memberikan hasil yang berbeda (beban dan skor PC), karena vektor eigen antara kedua matriks tidak sama. Pemahaman saya adalah bahwa ini disebabkan oleh fakta bahwa vektor data mentah dan standarisasi Z tidak dapat dihubungkan melalui transformasi ortogonal. Secara matematis, matriks yang sama (yaitu terkait dengan transformasi ortogonal) memiliki nilai eigen yang sama, tetapi tidak harus vektor eigen yang sama.XZ

Ini menimbulkan beberapa kesulitan dalam pikiran saya:

  1. Apakah PCA benar-benar masuk akal, jika Anda bisa mendapatkan dua jawaban berbeda untuk set data awal yang sama, keduanya mencoba mencapai hal yang sama (= mencari arah varians maksimum)?

  2. Ketika menggunakan pendekatan matriks korelasi, setiap variabel sedang distandarisasi (diskalakan) oleh standar deviasi masing-masing, sebelum menghitung PC. Bagaimana, kemudian, apakah masih masuk akal untuk menemukan arah varians maksimum jika data telah diskalakan / dikompresi secara berbeda sebelumnya? Saya tahu bahwa PCA berbasis korelasi sangat nyaman (variabel standar tidak berdimensi, sehingga kombinasi liniernya dapat ditambahkan; keuntungan lain juga didasarkan pada pragmatisme), tetapi apakah itu benar?

Tampak bagi saya bahwa PCA berbasis kovarian adalah satu-satunya yang benar-benar benar (bahkan ketika varians variabel sangat berbeda), dan bahwa setiap kali versi ini tidak dapat digunakan, PCA berbasis korelasi tidak boleh digunakan juga.

Saya tahu bahwa ada utas ini: PCA tentang korelasi atau kovarian? - tetapi tampaknya hanya berfokus pada menemukan solusi pragmatis, yang mungkin atau mungkin juga tidak menjadi solusi yang aljabar.

Lucozade
sumber
4
Saya akan jujur ​​dan memberi tahu Anda bahwa saya berhenti membaca pertanyaan Anda di beberapa titik. PCA masuk akal. Ya, hasilnya mungkin berbeda tergantung pada apakah Anda memilih untuk menggunakan matriks korelasi atau varians / kovarian. PCA berbasis korelasi lebih disukai jika variabel Anda diukur pada skala yang berbeda, tetapi Anda tidak ingin ini mendominasi hasilnya. Bayangkan jika Anda memiliki serangkaian variabel yang berkisar dari 0 hingga 1 dan kemudian beberapa yang memiliki nilai sangat besar (relatif berbicara, seperti 0 hingga 1000), varian besar yang terkait dengan kelompok variabel kedua akan mendominasi.
Patrick
4
Tapi itulah masalahnya dengan banyak teknik lain juga dan saya pikir poin Patrick masuk akal. Juga itu hanya komentar, tidak perlu menjadi agresif. Secara umum, mengapa Anda berasumsi bahwa harus ada satu cara yang benar “secara aljabar” yang benar untuk mendekati masalah?
Gala
5
Mungkin Anda memikirkan PCA dengan cara yang salah: itu hanya transformasi, jadi tidak ada pertanyaan apakah itu benar atau salah, atau mengandalkan asumsi tentang model data - tidak seperti, katakanlah, regresi atau analisis faktor.
Scortchi
5
Inti dari masalah ini tampaknya terletak pada kesalahpahaman tentang apa yang dilakukan standardisasi dan bagaimana PCA bekerja. Ini bisa dimengerti, karena pemahaman yang baik tentang PCA membutuhkan visualisasi bentuk-bentuk dimensi yang lebih tinggi. Saya akan mempertahankan bahwa pertanyaan ini, seperti banyak pertanyaan lain yang didasarkan pada semacam kesalahpahaman, dengan demikian adalah pertanyaan yang bagus dan harus tetap terbuka, karena jawabannya dapat mengungkapkan kebenaran bahwa banyak orang mungkin tidak menghargai sepenuhnya sebelumnya.
whuber
6
PCA tidak "mengklaim" apa pun. Orang-orang membuat klaim tentang PCA dan pada kenyataannya menggunakannya sangat berbeda tergantung pada bidangnya. Beberapa penggunaan ini mungkin konyol atau dipertanyakan tetapi tampaknya tidak terlalu mencerahkan untuk mengasumsikan bahwa varian tunggal dari teknik tersebut haruslah "benar secara aljabar" tanpa referensi ke konteks atau tujuan analisis.
Gala

Jawaban:

29

Saya harap tanggapan ini untuk dua pertanyaan Anda akan menenangkan kekhawatiran Anda:

  1. Matriks korelasi adalah matriks kovarians dari data yang terstandarisasi (yaitu tidak hanya terpusat tetapi juga ditata ulang); yaitu, matriks kovarians (seolah-olah) dari dataset lain yang berbeda. Jadi itu wajar dan seharusnya tidak mengganggu Anda bahwa hasilnya berbeda.
  2. Ya, masuk akal untuk menemukan arah varians maksimal dengan data terstandarisasi - mereka adalah arah - demikianlah - "berkorelasi," bukan "kovariat"; yaitu, setelah efek varians yang tidak sama - dari variabel asli - pada bentuk awan data multivariat dihapus.

Teks dan gambar berikutnya ditambahkan oleh @whuber (Saya berterima kasih padanya. Juga, lihat komentar saya di bawah)

Berikut adalah contoh dua dimensi yang menunjukkan mengapa masih masuk akal untuk menemukan sumbu utama dari data standar (ditunjukkan di sebelah kanan). Perhatikan bahwa di plot sebelah kanan awan masih memiliki "bentuk" meskipun varians di sepanjang sumbu koordinat sekarang persis sama (hingga 1,0). Demikian pula, dalam dimensi yang lebih tinggi, awan titik terstandarisasi akan memiliki bentuk non-bola meskipun varians sepanjang semua sumbu sama persis (hingga 1,0). Sumbu utama (dengan nilai eigen yang sesuai) menggambarkan bentuk itu. Cara lain untuk memahami hal ini adalah dengan mencatat bahwa semua penskalaan dan pemindahan yang terjadi ketika standardisasi variabel hanya terjadi dalam arah sumbu koordinat dan bukan pada arah utama itu sendiri.

Angka

Apa yang terjadi di sini secara geometris sangat intuitif dan jelas sehingga akan sulit untuk menggambarkan ini sebagai "operasi kotak hitam": sebaliknya, standardisasi dan PCA adalah beberapa hal paling mendasar dan rutin yang kami lakukan dengan data secara berurutan. untuk memahaminya.


Dilanjutkan oleh @ttnphns

Kapan seseorang akan lebih suka melakukan PCA (atau analisis faktor atau jenis analisis serupa lainnya) pada korelasi (yaitu pada variabel standar-z) daripada melakukannya pada kovarian (yaitu pada variabel terpusat)?

  1. Ketika variabel unit pengukuran yang berbeda. Jelas.
  2. Ketika seseorang ingin analisis mencerminkan asosiasi linier yang adil dan hanya . Pearson r bukan hanya kovarians antara variabel yang tidak disembunyikan (varians = 1); tiba-tiba ukuran kekuatan hubungan linier, sedangkan koefisien kovarians yang biasa diterima baik untuk hubungan linier dan monotonik.
  3. Ketika seseorang ingin asosiasi untuk mencerminkan penyimpangan co relatif (dari rata-rata) daripada penyimpangan co mentah. Korelasi didasarkan pada distribusi, penyebarannya, sedangkan kovarians didasarkan pada skala pengukuran asli. Jika saya menganalisis faktor-faktor profil psikopatologis pasien seperti yang dinilai oleh psikiater pada beberapa kuesioner klinis yang terdiri dari item tipe-Likert, saya lebih suka kovarian. Karena para profesional tidak diharapkan mengubah skala peringkat secara intrapsikis. Jika, di sisi lain, saya menganalisis posisi pasien sendiri dengan kuesioner yang sama, saya mungkin akan memilih korelasi. Karena penilaian awam diharapkan relatif "orang lain", "mayoritas" "penyimpangan yang diizinkan" pembesar yang "menyusut" atau "membentang" skala peringkat untuk satu.
ttnphns
sumber
1
1. Maaf, tapi ini sangat mengganggu. Untuk individu eksternal, standardisasi adalah operasi kotak hitam, bagian dari pengkondisian data PCA (juga dalam ICA). Dia menginginkan satu jawaban untuk data input (mentah) -nya, terutama jika itu berhubungan dengan data fisik (berdimensi) yang output PCA perlu ditafsirkan secara fisik (yaitu, dalam hal variabel tidak standar) juga.
Lucozade
1
Revisi terakhir Anda tampaknya menegaskan kembali bahwa "PCA berbasis kovarian adalah satu-satunya yang benar-benar benar". Karena keseluruhan tanggapan sejauh ini pada dasarnya adalah "Tidak; cara yang salah untuk memikirkannya; dan inilah sebabnya" sulit untuk mengetahui bagaimana Anda mengarahkan diskusi terhadap pertentangan yang begitu besar.
Nick Cox
4
@Lucozade: Saya bingung dengan deskripsi aplikasi Anda: - Bagaimana PCA merekomendasikan sesuatu? Bagaimana Anda mengukur kinerja ? Demikian pula untuk komentar terakhir Anda: - Optimal untuk apa?
Scortchi
5
@Lucozade: Memang, dengarkan tolong apa yang dikatakan Scortchi, Anda sepertinya terus mengejar hantu. PCA hanyalah bentuk khusus dari data yang diputar di ruang angkasa. Itu selalu melakukan secara optimal apa yang dilakukannya dengan input data. Dilema cov-corr adalah yang pragmatis, berakar pada pra-pemrosesan data dan diselesaikan pada tingkat itu, bukan pada tingkat PCA.
ttnphns
1
@Lucozade: Ini akan menjadi pendapat saya (non-ahli) berdasarkan jawaban Anda kepada saya bahwa dalam kebutuhan spesifik Anda, Anda berhak menginginkan PCA berbasis cov. Sekali lagi, variabel Anda semuanya homogen dalam hal tipe data / pengukuran (tipe mesin yang sama, dan semua data dalam volt). Bagi saya contoh Anda jelas merupakan kasus di mana cov-PCA benar, tetapi harap dicatat bahwa ini tidak selalu terjadi, dan saya pikir ini poin penting dari ini sementara utas (pilihan cor v. Cov adalah kasus khusus dan kebutuhan ditentukan oleh orang yang memahami data & aplikasi terbaik). Semoga berhasil dengan riset Anda!
Patrick
6

Berbicara dari sudut pandang praktis - mungkin tidak populer di sini - jika Anda memiliki data yang diukur pada skala yang berbeda, maka pergilah dengan korelasi ('penskalaan UV' jika Anda seorang ahli kimia), tetapi jika variabelnya berada pada skala yang sama dan ukurannya penting (mis. dengan data spektroskopi), maka kovarian (hanya memusatkan data) lebih masuk akal. PCA adalah metode yang bergantung pada skala dan juga transformasi log dapat membantu dengan data yang sangat miring.

Menurut pendapat saya yang sederhana berdasarkan 20 tahun aplikasi praktis dari chemometrics Anda harus bereksperimen sedikit dan melihat apa yang terbaik untuk tipe data Anda. Pada akhirnya Anda harus bisa mereproduksi hasil Anda dan mencoba membuktikan prediksi kesimpulan Anda. Bagaimana Anda sampai di sana sering merupakan kasus coba-coba tetapi yang penting adalah bahwa apa yang Anda lakukan didokumentasikan dan direproduksi.

menandai
sumber
4
Pendekatan praktis yang tampaknya Anda anjurkan di sini bermuara pada - ketika kedua kovarian dan korelasi dijamin - "cobalah keduanya dan lihat apa yang paling berhasil". Sikap empiris murni itu menutupi fakta bahwa setiap pilihan berjalan dengan asumsi atau paradigma sendiri tentang kenyataan yang harus disadari oleh peneliti sebelumnya, bahkan jika dia mengerti bahwa dia lebih suka salah satu dari mereka sepenuhnya secara sewenang-wenang. Memilih "apa yang paling berhasil" adalah memanfaatkan perasaan senang, narcomania.
ttnphns
-2

xis2(x1/s1)+(x2/s2)=(x1+x2)/sx1+x2s1s2derajat. Tampaknya tidak ada gunanya memaksimalkan varians dari kombinasi linear mereka. Dalam hal itu, PCA memberikan solusi untuk serangkaian data yang berbeda, di mana setiap variabel diskalakan secara berbeda. Jika Anda kemudian menghapus standar setelah itu (saat menggunakan corr_PCA) maka itu mungkin OK dan perlu; tetapi jika Anda hanya mengambil solusi corr_PCA mentah apa adanya dan berhenti di sana, Anda akan mendapatkan solusi matematis, tetapi tidak ada yang terkait dengan data fisik. Sebagai unstandardization sesudahnya kemudian tampaknya wajib sebagai minimum (yaitu, 'unstretching' sumbu oleh standar deviasi terbalik), cov_PCA bisa digunakan untuk memulai. Jika Anda masih membaca sekarang, saya terkesan! Untuk sekarang, saya selesai dengan mengutip dari buku Jolliffe, hal. 42, yang merupakan bagian yang menjadi perhatian saya:'Tidak boleh dilupakan, bagaimanapun, bahwa PC matriks korelasi, ketika dinyatakan kembali dalam hal variabel asli, masih fungsi linear x yang memaksimalkan varians sehubungan dengan variabel standar dan tidak berkenaan dengan variabel asli.' Jika Anda pikir saya salah menafsirkan ini atau implikasinya, kutipan ini mungkin menjadi titik fokus yang baik untuk diskusi lebih lanjut.

Lucozade
sumber
3
Sangat lucu bahwa jawaban Anda sendiri, yang selaras dengan segala sesuatu yang orang-orang di sini coba sampaikan kepada Anda, tetap tidak nyaman bagi Anda. Anda masih berdebat There seems little pointdalam PCA tentang korelasi. Nah, jika Anda harus tetap dekat dengan data mentah ("data fisik", seperti Anda menyebutnya aneh), Anda benar-benar tidak boleh menggunakan korelasi karena itu sesuai dengan data ("terdistorsi") lainnya.
ttnphns
2
(Lanj.) Jolliffe menyatakan, bahwa PC yang diperoleh dari korelasi akan menjadi diri mereka sendiri dan tidak dapat diubah "kembali" menjadi PC di kovarian meskipun Anda dapat mengekspresikannya kembali sebagai kombinasi linear dari variabel asli. Dengan demikian, Jolliffe menekankan gagasan bahwa hasil PCA sepenuhnya tergantung pada jenis pra-pemrosesan yang digunakan dan bahwa tidak ada PC "benar", "asli" atau "universal" ...
ttnphns
2
(Lanj.) Dan sebenarnya, Beberapa baris di bawah Jolliffe berbicara tentang "bentuk" lain PCA - PCA pada X'Xmatriks. Formulir ini bahkan "lebih dekat" ke data asli daripada cov-PCA karena tidak ada pemusatan variabel yang dilakukan. Dan hasilnya biasanya sangat berbeda . Anda juga bisa melakukan PCA pada kosmetik. Orang-orang melakukan PCA pada semua versi dari matriks SSCP , meskipun kovariansi atau korelasi paling sering digunakan.
ttnphns
3
Mendasari jawaban ini adalah asumsi implisit bahwa unit di mana data diukur memiliki makna intrinsik. Itu jarang terjadi: kita dapat memilih untuk mengukur panjang dalam Angstrom, parsec, atau apa pun, dan waktu dalam picoseconds atau ribuan tahun, tanpa mengubah arti data satu iota. Perubahan yang dibuat dalam beralih dari kovarian ke korelasi hanyalah perubahan unit (yang, omong-omong, sangat sensitif terhadap data terpencil). Ini menunjukkan bahwa masalahnya bukan kovarians versus korelasi, tetapi lebih untuk menemukan cara yang bermanfaat untuk mengekspresikan data untuk dianalisis.
whuber
3
@ttnphns saya akan tetap berpegang pada "hanya," terima kasih. Apakah implikasinya "mendalam" atau tidak, faktanya tetap bahwa standardisasi variabel secara harfiah adalah ekspresi ulang nilai-nilainya: perubahan dalam satuan ukurannya. Pentingnya pengamatan ini terletak pada implikasinya terhadap beberapa klaim yang muncul di utas ini, yang mana yang paling menonjol adalah "PCA berbasis kovarian adalah satu-satunya yang benar-benar benar." Setiap konsepsi kebenaran yang pada akhirnya tergantung pada aspek data yang pada dasarnya arbitrer - bagaimana kita menuliskannya - tidak mungkin benar.
whuber