Apa ukuran asosiasi yang tepat dari variabel dengan komponen PCA (pada plot biplot / pemuatan)?

17

Saya menggunakan FactoMineRuntuk mengurangi set data pengukuran saya ke variabel laten.

! [peta variabel] (http://f.cl.ly/items/071s190V1G3s1u0T0Y3M/pca.png)

Peta variabel di atas jelas bagi saya untuk menafsirkan, tapi saya bingung ketika datang ke asosiasi antara variabel dan komponen 1. Melihat peta variabel, ddpdan covsangat dekat dengan komponen di peta, dan ddpAbssedikit lebih jauh jauh. Tapi, ini bukan yang ditunjukkan oleh korelasi:

$Dim.1
$Dim.1$quanti
        correlation      p.value
jittAbs   0.9388158 1.166116e-11
rpvi      0.9388158 1.166116e-11
sd        0.9359214 1.912641e-11
ddpAbs    0.9327135 3.224252e-11
rapAbs    0.9327135 3.224252e-11
ppq5      0.9319101 3.660014e-11
ppq5Abs   0.9247266 1.066303e-10
cov       0.9150209 3.865897e-10
npvi      0.8853941 9.005243e-09
ddp       0.8554260 1.002460e-07
rap       0.8554260 1.002460e-07
jitt      0.8181207 1.042053e-06
cov5_x    0.6596751 4.533596e-04
ps13_20  -0.4593369 2.394361e-02
ps5_12   -0.5237125 8.625918e-03

Lalu ada sin2kuantitas, yang merupakan tinggi untuk rpvi(misalnya), tetapi ukuran itu bukan variabel yang paling dekat dengan komponen pertama sama sekali.

Variables
           Dim.1    ctr   cos2    Dim.2    ctr   cos2  
rpvi    |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
npvi    |  0.885  7.227  0.784 |  0.075  0.267  0.006 |
cov     |  0.915  7.719  0.837 | -0.006  0.001  0.000 |
jittAbs |  0.939  8.126  0.881 |  0.147  1.020  0.022 |
jitt    |  0.818  6.171  0.669 |  0.090  0.380  0.008 |
rapAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
rap     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
ppq5Abs |  0.925  7.884  0.855 |  0.091  0.392  0.008 |
ppq5    |  0.932  8.007  0.868 | -0.035  0.057  0.001 |
ddpAbs  |  0.933  8.020  0.870 |  0.126  0.746  0.016 |
ddp     |  0.855  6.746  0.732 |  0.040  0.076  0.002 |
pa      |  0.265  0.646  0.070 | -0.857 34.614  0.735 |
ps5_12  | -0.524  2.529  0.274 |  0.664 20.759  0.441 |
ps13_20 | -0.459  1.945  0.211 |  0.885 36.867  0.783 |
cov5_x  |  0.660  4.012  0.435 |  0.245  2.831  0.060 |
sd      |  0.936  8.076  0.876 |  0.056  0.150  0.003 |

Jadi, apa yang harus saya lihat ketika datang hubungan antara variabel dan komponen pertama?

Fredrik Karlsson
sumber
1
Meskipun poin pada peta Anda (yang terlihat sebagai plot pemuatan) berantakan, saya akan mengatakan bahwa plot tersebut sesuai dengan output "korelasi" dengan baik. "Korelasi" itu adalah koordinat pada Dim1. Mereka, pembebanan, adalah korelasi antara faktor dan variabel (ketika Anda mendasarkan analisis Anda pada data terstandarisasi = pada korelasi b / b variabel).
ttnphns
Selain jawaban di bawah ini silakan periksa yang ini dengan tautan lebih lanjut di sana.
ttnphns

Jawaban:

25

Penjelasan plot pemuatan PCA atau Analisis faktor.

Memuat plot menunjukkan variabel sebagai titik dalam ruang komponen utama (atau faktor). Koordinat variabel biasanya memuat. (Jika Anda menggabungkan plot pemuatan dengan kasus sebaran kasus data dalam ruang komponen yang sama, itu akan menjadi biplot.)

Mari kita memiliki 3 variabel entah bagaimana berkorelasi, , W , U . Kami memusatkan mereka dan melakukan PCA , mengekstraksi 2 komponen utama pertama dari tiga: F 1 dan F 2 . Kami menggunakan pemuatan sebagai koordinat untuk melakukan plot pemuatan di bawah ini. Memuat adalah elemen vektor eigen yang tidak standar, yaitu vektor eigen yang diberkahi oleh varian komponen yang sesuai, atau nilai eigen.VWUF1F2

enter image description here

Memuat plot adalah bidang pada gambar. Mari kita mempertimbangkan hanya variabel . Panah yang biasanya digambar pada plot pemuatan adalah apa yang diberi label h ′ di sini; koordinat a 1 , a 2 adalah pemuatan V dengan F 1 dan F 2 , masing-masing (harap diketahui bahwa secara terminologis lebih tepat mengatakan "komponen memuat variabel", bukan sebaliknya).Vha1a2VF1F2

Panah adalah proyeksi, di pesawat komponen, vektor h yang merupakan posisi sebenarnya dari variabel V di variabel ruang yang direntang oleh V , W , U . Panjang kuadrat vektor, h 2 , adalah varian yang dari V . Sedangkan h 2 adalah bagian dari varian yang dijelaskan oleh dua komponen.hhVVWUh2aVh2

Memuat, korelasi, korelasi yang diproyeksikan . Karena variabel berpusat sebelum ekstraksi komponen, adalah korelasi Pearson antara V dan komponen F 1 . Itu tidak harus bingung dengan cos a pada loading plot, yang merupakan kuantitas lain: itu adalah korelasi Pearson antara komponen F 1 dan variabel vektor di sini sebagai h ' . Sebagai variabel, h adalah prediksi V oleh komponen (standar) dalam regresi linier (bandingkan dengan menggambar geometri regresi linier di sinicosϕVF1cosαF1hhV) di mana pemuatan adalah koefisien regresi (ketika komponen disimpan ortogonal, seperti yang diekstraksi).a

Lebih lanjut. Kita mungkin ingat (trigonometri) yang . Ini dapat dipahami sebagai produk skalar antara vektor V dan vektor satuan panjang F 1 : h 1 cos ϕ . F 1 disetel vektor satuan-varians karena tidak memiliki varians sendiri selain dari varian V yang dijelaskannya (dengan jumlah h ): yaitu F 1a1=hcosϕVF1h1cosϕF1VhF1adalah diekstraksi-dari-V, W, U dan bukan entitas diundang-dari-luar. Kemudian, jelas, adalahkovariansantaraVdanstandar, skala-unitb(untuk mengaturs1=a1=varVvarF1r=h1cosϕVb) komponenF1. Kovarians ini secara langsung sebanding dengan kovariansi antara variabel input; misalnya, kovarians antaraVdanWakan menjadi produk dari panjang vektornya dikalikan dengan kosinus di antara mereka.s1=varF1=1F1VW

Untuk meringkas: memuat dapat dilihat sebagai kovarians antara komponen standar dan variabel yang diamati, h 1 cos φ , atau ekuivalen antara komponen standar dan dijelaskan (oleh semua komponen mendefinisikan plot) citra variabel, h 1 cos α . Itu cos α dapat disebut korelasi V-F1 yang diproyeksikan pada subruang komponen F1-F2.a1h1cosϕh1cosαcosα

Korelasi tersebut di atas antara variabel dan komponen, , juga disebut standar atau rescaled pemuatan . Ini nyaman dalam penafsiran komponen karena berada dalam kisaran [-1,1].cosϕ=a1/h

Hubungan dengan vektor eigen . Rescaled pemuatan harus tidak harus bingung dengan vektor eigen elemen yang - seperti yang kita tahu - adalah cosinus dari sudut antara variabel dan komponen utama. Ingat bahwa memuat adalah elemen vektor eigen yang ditingkatkan oleh nilai singular komponen (akar kuadrat dari nilai eigen). Yaitu untuk variabel V plot kami: a 1 = e 1 s 1 , dengan s 1 adalah st. penyimpangan (bukan 1 tetapi asli, yaitu nilai singular) dari F 1cosϕVa1=e1s1s11F1variabel laten. Maka muncullah elemen vektor eigen , bukancosϕitu sendiri. Kebingungan di sekitar dua kata "cosinus" larut ketika kita mengingat seperti apa representasi ruang kita. Nilai vektor eigenadalahkosinusdari sudut rotasivariabel sebagai sumbu ke pr. komponen sebagai sumbu dalam ruang variabel (alias tampilan sebar),seperti di sini. Sementaracosϕpada plot pemuatan kamiadalah ukuran kesamaan cosinusantara variabel sebagai vektor dan pr. komponen sebagai ... juga .. sebagai vektor juga, jika Anda suka (meskipun itu digambarkan sebagai sumbu pada plot), - karena kami saat ini berada diruang subjeke1=a1s1=hs1cosϕcosϕcosϕ (yang memuat plot) di mana variabel berkorelasi adalah penggemar vektor - bukan sumbu ortogonal, - dan sudut vektor adalah ukuran asosiasi - dan bukan rotasi pangkalan ruang.

Sedangkan pembebanan adalah ukuran asosiasi sudut (yaitu jenis produk skalar) antara variabel dan komponen skala unit, dan pembebanan berskala kembali adalah pembebanan terstandarisasi dimana skala variabel dikurangi menjadi satuan, tetapi koefisien vektor eigen adalah pembebanan di mana komponen "overstandardized", yaitu dibawa ke skala (bukan 1); alternatifnya, ini dapat dianggap sebagai pembebanan ulang skala di mana skala variabel dibawa ke h / s (bukan 1).1/sh/s

Jadi, apa hubungan antara variabel dan komponen? Anda dapat memilih apa yang Anda suka. Mungkin pemuatan (kovarians dengan komponen skala unit) ; yang memuat Rescaled cos φ (= variabel-komponen korelasi); korelasi antara gambar (prediksi) dan komponen (= proyeksi korelasi cos α ). Anda bahkan dapat memilih koefisien vektor eigen e = a / s jika Anda perlu (meskipun saya bertanya-tanya apa yang mungkin menjadi alasan). Atau ciptakan ukuran Anda sendiri.a cosϕcosαe=a/s

Nilai vektor eigen kuadrat memiliki arti kontribusi variabel ke dalam suatu pr. komponen. Pemuatan berskala kuadrat ulang memiliki arti kontribusi pr. komponen menjadi variabel.

Hubungan dengan PCA berdasarkan korelasi. Jika kita menganalisis PCA tidak hanya variabel terpusat tetapi terstandarisasi (terpusat kemudian unit-varians), maka ketiga variabel vektor (bukan proyeksi mereka di bidang) akan sama, panjang unit. Maka secara otomatis mengikuti bahwa pemuatan adalah korelasi , bukan kovarian, antara variabel dan komponen. Tetapi korelasi yang tidak akan sama dengan "memuat standar" dari gambar di atas (berdasarkan analisis variabel hanya berpusat), karena PCA variabel standar (korelasi berbasis PCA) menghasilkan berbagai komponen dari PCA variabel berpusat ( PCA berbasis covariances). Dalam PCA berbasis korelasi a 1cosϕ karena h = 1 , tetapi komponen utamabukankomponen utama yangsamaseperti yang kita dapatkan dari PCA berbasis kovarian (baca,baca).a1=cosϕh=1

Dalam analisis faktor , memuat plot pada dasarnya memiliki konsep dan interpretasi yang sama seperti pada PCA. Satu-satunya perbedaan (tetapi penting ) adalah substansi . Dalam analisis faktor, h - kemudian disebut "komunalitas" dari variabel - adalah bagian dari variansnya yang dijelaskan oleh faktor-faktor umum yang bertanggung jawab secara khusus untuk korelasi antar variabel. Sementara di PCA bagian yang dijelaskan h hh hadalah "campuran" kotor - sebagian merupakan korelasi dan sebagian tidak terkait antar variabel. Dengan analisis faktor, bidang pemuatan pada gambar kita akan berorientasi berbeda (sebenarnya, bahkan akan keluar dari ruang variabel 3d kita ke dimensi 4, yang tidak bisa kita gambar; bidang pemuatan tidak akan menjadi subruang dari kita Ruang 3d direntang oleh dan dua variabel lainnya), dan proyeksi h akan memiliki panjang lain dan dengan sudut lain α . (Perbedaan teoritis antara PCA dan analisis faktor dijelaskan secara geometris di sini melalui representasi ruang subjek dan di sini melalui representasi ruang variabel.)Vhα


A membalas permintaan @Antoni Parellada dalam komentar. Ini setara apakah Anda lebih suka berbicara dalam halvariansatau dalam halsebar(SS deviasi): varians = sebar / (n-1), di mananadalah ukuran sampel. Karena kita berurusan dengan satu dataset dengann yangsama, konstanta tidak mengubah apa pun dalam rumus. JikaXadalah data (dengan variabel V, W, U berpusat), maka komposisi eigend dari matriks kovarians (A) -nya menghasilkan nilai eigen yang sama (varian komponen) dan vektor eigen sebagai komposisi eigend dari komposisi (B) matriks sebaran X Xa,b/(n1)nnXXXdiperoleh setelah pembagian awal oleh X faktor. Setelah itu, dalam rumus pemuatan (lihat bagian tengah jawaban),a1=hs1cosϕ, istilahhadalahst. penyimpangann1a1=hs1cosϕh di (A) tetapi root scatter (yaitu norma)Vin (B). Terms1, yang sama dengan1,adalahstandar yangF1komponen st. penyimpanganvarVVs11F1 in (A) tetapi root scatterF1in (B). Akhirnya,cosϕ=radalah korelasi yangtidak sensitifterhadap penggunaann-1dalam perhitungannya. Jadi, kita hanyaberbicarasecara konseptual tentang varians (A) atau scatters (B), sementara nilai-nilai itu sendiri tetap sama dalam rumus di kedua contoh.varF1F1cosϕ=rn1

ttnphns
sumber
Jawaban ini bagus dan memiliki banyak info, tetapi saya pikir jawaban aktual untuk pertanyaan itu terletak pada "apa arti ?" α
shadowtalker
@ssdecontrol, saya menambahkan baris tentang itu.
ttnphns
Saya telah membaca posting Anda pada topik, dan saya terjebak pada bagian yang paling jelas terlihat, ketika Anda mengatakan ... "jelas, . Karenar=cosϕdana1=varVvarF1r=h1cosϕr=cosϕ, berartivarF1=1. Namun,h=V=varV=h , sedangkanh=V=x2 . Apa yang saya lewatkan? varV=x2n1
Antoni Parellada
1
@AntoniParellada, silakan periksa catatan kaki.
ttnphns
1
Saya membaca adendum Anda, dan itu sangat mencerahkan. Terima kasih! Tanpa memilih keluar kalimat tertentu, itu akan menjelaskan beberapa transisi dari unit-varians untuk skala norma unit bersama jawabannya, yang sebelumnya disajikan beberapa kesulitan (untuk saya). F1
Antoni Parellada