Saya menggunakan FactoMineR
untuk mengurangi set data pengukuran saya ke variabel laten.
Peta variabel di atas jelas bagi saya untuk menafsirkan, tapi saya bingung ketika datang ke asosiasi antara variabel dan komponen 1. Melihat peta variabel, ddp
dan cov
sangat dekat dengan komponen di peta, dan ddpAbs
sedikit lebih jauh jauh. Tapi, ini bukan yang ditunjukkan oleh korelasi:
$Dim.1
$Dim.1$quanti
correlation p.value
jittAbs 0.9388158 1.166116e-11
rpvi 0.9388158 1.166116e-11
sd 0.9359214 1.912641e-11
ddpAbs 0.9327135 3.224252e-11
rapAbs 0.9327135 3.224252e-11
ppq5 0.9319101 3.660014e-11
ppq5Abs 0.9247266 1.066303e-10
cov 0.9150209 3.865897e-10
npvi 0.8853941 9.005243e-09
ddp 0.8554260 1.002460e-07
rap 0.8554260 1.002460e-07
jitt 0.8181207 1.042053e-06
cov5_x 0.6596751 4.533596e-04
ps13_20 -0.4593369 2.394361e-02
ps5_12 -0.5237125 8.625918e-03
Lalu ada sin2
kuantitas, yang merupakan tinggi untuk rpvi
(misalnya), tetapi ukuran itu bukan variabel yang paling dekat dengan komponen pertama sama sekali.
Variables
Dim.1 ctr cos2 Dim.2 ctr cos2
rpvi | 0.939 8.126 0.881 | 0.147 1.020 0.022 |
npvi | 0.885 7.227 0.784 | 0.075 0.267 0.006 |
cov | 0.915 7.719 0.837 | -0.006 0.001 0.000 |
jittAbs | 0.939 8.126 0.881 | 0.147 1.020 0.022 |
jitt | 0.818 6.171 0.669 | 0.090 0.380 0.008 |
rapAbs | 0.933 8.020 0.870 | 0.126 0.746 0.016 |
rap | 0.855 6.746 0.732 | 0.040 0.076 0.002 |
ppq5Abs | 0.925 7.884 0.855 | 0.091 0.392 0.008 |
ppq5 | 0.932 8.007 0.868 | -0.035 0.057 0.001 |
ddpAbs | 0.933 8.020 0.870 | 0.126 0.746 0.016 |
ddp | 0.855 6.746 0.732 | 0.040 0.076 0.002 |
pa | 0.265 0.646 0.070 | -0.857 34.614 0.735 |
ps5_12 | -0.524 2.529 0.274 | 0.664 20.759 0.441 |
ps13_20 | -0.459 1.945 0.211 | 0.885 36.867 0.783 |
cov5_x | 0.660 4.012 0.435 | 0.245 2.831 0.060 |
sd | 0.936 8.076 0.876 | 0.056 0.150 0.003 |
Jadi, apa yang harus saya lihat ketika datang hubungan antara variabel dan komponen pertama?
correlation
pca
factor-analysis
association-measure
biplot
Fredrik Karlsson
sumber
sumber
Jawaban:
Penjelasan plot pemuatan PCA atau Analisis faktor.
Memuat plot menunjukkan variabel sebagai titik dalam ruang komponen utama (atau faktor). Koordinat variabel biasanya memuat. (Jika Anda menggabungkan plot pemuatan dengan kasus sebaran kasus data dalam ruang komponen yang sama, itu akan menjadi biplot.)
Mari kita memiliki 3 variabel entah bagaimana berkorelasi, , W , U . Kami memusatkan mereka dan melakukan PCA , mengekstraksi 2 komponen utama pertama dari tiga: F 1 dan F 2 . Kami menggunakan pemuatan sebagai koordinat untuk melakukan plot pemuatan di bawah ini. Memuat adalah elemen vektor eigen yang tidak standar, yaitu vektor eigen yang diberkahi oleh varian komponen yang sesuai, atau nilai eigen.V W U F1 F2
Memuat plot adalah bidang pada gambar. Mari kita mempertimbangkan hanya variabel . Panah yang biasanya digambar pada plot pemuatan adalah apa yang diberi label h ′ di sini; koordinat a 1 , a 2 adalah pemuatan V dengan F 1 dan F 2 , masing-masing (harap diketahui bahwa secara terminologis lebih tepat mengatakan "komponen memuat variabel", bukan sebaliknya).V h′ a1 a2 V F1 F2
Panah adalah proyeksi, di pesawat komponen, vektor h yang merupakan posisi sebenarnya dari variabel V di variabel ruang yang direntang oleh V , W , U . Panjang kuadrat vektor, h 2 , adalah varian yang dari V . Sedangkan h ′ 2 adalah bagian dari varian yang dijelaskan oleh dua komponen.h′ h V V W U h2 a V h′2
Memuat, korelasi, korelasi yang diproyeksikan . Karena variabel berpusat sebelum ekstraksi komponen, adalah korelasi Pearson antara V dan komponen F 1 . Itu tidak harus bingung dengan cos a pada loading plot, yang merupakan kuantitas lain: itu adalah korelasi Pearson antara komponen F 1 dan variabel vektor di sini sebagai h ' . Sebagai variabel, h ′ adalah prediksi V oleh komponen (standar) dalam regresi linier (bandingkan dengan menggambar geometri regresi linier di sinicosϕ V F1 cosα F1 h′ h′ V ) di mana pemuatan adalah koefisien regresi (ketika komponen disimpan ortogonal, seperti yang diekstraksi).a
Lebih lanjut. Kita mungkin ingat (trigonometri) yang . Ini dapat dipahami sebagai produk skalar antara vektor V dan vektor satuan panjang F 1 : h ⋅ 1 ⋅ cos ϕ . F 1 disetel vektor satuan-varians karena tidak memiliki varians sendiri selain dari varian V yang dijelaskannya (dengan jumlah h ′ ): yaitu F 1a1=h⋅cosϕ V F1 h⋅1⋅cosϕ F1 V h′ F1 adalah diekstraksi-dari-V, W, U dan bukan entitas diundang-dari-luar. Kemudian, jelas, adalahkovariansantaraVdanstandar, skala-unitb(untuk mengaturs1= √a1=varV⋅varF1−−−−−−−−−−√⋅r=h⋅1⋅cosϕ V b ) komponenF1. Kovarians ini secara langsung sebanding dengan kovariansi antara variabel input; misalnya, kovarians antaraVdanWakan menjadi produk dari panjang vektornya dikalikan dengan kosinus di antara mereka.s1=varF1−−−−−√=1 F1 V W
Untuk meringkas: memuat dapat dilihat sebagai kovarians antara komponen standar dan variabel yang diamati, h ⋅ 1 ⋅ cos φ , atau ekuivalen antara komponen standar dan dijelaskan (oleh semua komponen mendefinisikan plot) citra variabel, h ′ ⋅ 1 ⋅ cos α . Itu cos α dapat disebut korelasi V-F1 yang diproyeksikan pada subruang komponen F1-F2.a1 h⋅1⋅cosϕ h′⋅1⋅cosα cosα
Korelasi tersebut di atas antara variabel dan komponen, , juga disebut standar atau rescaled pemuatan . Ini nyaman dalam penafsiran komponen karena berada dalam kisaran [-1,1].cosϕ=a1/h
Hubungan dengan vektor eigen . Rescaled pemuatan harus tidak harus bingung dengan vektor eigen elemen yang - seperti yang kita tahu - adalah cosinus dari sudut antara variabel dan komponen utama. Ingat bahwa memuat adalah elemen vektor eigen yang ditingkatkan oleh nilai singular komponen (akar kuadrat dari nilai eigen). Yaitu untuk variabel V plot kami: a 1 = e 1 s 1 , dengan s 1 adalah st. penyimpangan (bukan 1 tetapi asli, yaitu nilai singular) dari F 1cosϕ V a1=e1s1 s1 1 F1 variabel laten. Maka muncullah elemen vektor eigen , bukancosϕitu sendiri. Kebingungan di sekitar dua kata "cosinus" larut ketika kita mengingat seperti apa representasi ruang kita. Nilai vektor eigenadalahkosinusdari sudut rotasivariabel sebagai sumbu ke pr. komponen sebagai sumbu dalam ruang variabel (alias tampilan sebar),seperti di sini. Sementaracosϕpada plot pemuatan kamiadalah ukuran kesamaan cosinusantara variabel sebagai vektor dan pr. komponen sebagai ... juga .. sebagai vektor juga, jika Anda suka (meskipun itu digambarkan sebagai sumbu pada plot), - karena kami saat ini berada diruang subjeke1=a1s1=hs1cosϕ cosϕ cosϕ (yang memuat plot) di mana variabel berkorelasi adalah penggemar vektor - bukan sumbu ortogonal, - dan sudut vektor adalah ukuran asosiasi - dan bukan rotasi pangkalan ruang.
Sedangkan pembebanan adalah ukuran asosiasi sudut (yaitu jenis produk skalar) antara variabel dan komponen skala unit, dan pembebanan berskala kembali adalah pembebanan terstandarisasi dimana skala variabel dikurangi menjadi satuan, tetapi koefisien vektor eigen adalah pembebanan di mana komponen "overstandardized", yaitu dibawa ke skala (bukan 1); alternatifnya, ini dapat dianggap sebagai pembebanan ulang skala di mana skala variabel dibawa ke h / s (bukan 1).1/s h/s
Jadi, apa hubungan antara variabel dan komponen? Anda dapat memilih apa yang Anda suka. Mungkin pemuatan (kovarians dengan komponen skala unit) ; yang memuat Rescaled cos φ (= variabel-komponen korelasi); korelasi antara gambar (prediksi) dan komponen (= proyeksi korelasi cos α ). Anda bahkan dapat memilih koefisien vektor eigen e = a / s jika Anda perlu (meskipun saya bertanya-tanya apa yang mungkin menjadi alasan). Atau ciptakan ukuran Anda sendiri.a cosϕ cosα e=a/s
Nilai vektor eigen kuadrat memiliki arti kontribusi variabel ke dalam suatu pr. komponen. Pemuatan berskala kuadrat ulang memiliki arti kontribusi pr. komponen menjadi variabel.
Hubungan dengan PCA berdasarkan korelasi. Jika kita menganalisis PCA tidak hanya variabel terpusat tetapi terstandarisasi (terpusat kemudian unit-varians), maka ketiga variabel vektor (bukan proyeksi mereka di bidang) akan sama, panjang unit. Maka secara otomatis mengikuti bahwa pemuatan adalah korelasi , bukan kovarian, antara variabel dan komponen. Tetapi korelasi yang tidak akan sama dengan "memuat standar" dari gambar di atas (berdasarkan analisis variabel hanya berpusat), karena PCA variabel standar (korelasi berbasis PCA) menghasilkan berbagai komponen dari PCA variabel berpusat ( PCA berbasis covariances). Dalam PCA berbasis korelasi a 1cosϕ karena h = 1 , tetapi komponen utamabukankomponen utama yangsamaseperti yang kita dapatkan dari PCA berbasis kovarian (baca,baca).a1=cosϕ h=1
Dalam analisis faktor , memuat plot pada dasarnya memiliki konsep dan interpretasi yang sama seperti pada PCA. Satu-satunya perbedaan (tetapi penting ) adalah substansi . Dalam analisis faktor, h ′ - kemudian disebut "komunalitas" dari variabel - adalah bagian dari variansnya yang dijelaskan oleh faktor-faktor umum yang bertanggung jawab secara khusus untuk korelasi antar variabel. Sementara di PCA bagian yang dijelaskan h ′h′ h′ h′ adalah "campuran" kotor - sebagian merupakan korelasi dan sebagian tidak terkait antar variabel. Dengan analisis faktor, bidang pemuatan pada gambar kita akan berorientasi berbeda (sebenarnya, bahkan akan keluar dari ruang variabel 3d kita ke dimensi 4, yang tidak bisa kita gambar; bidang pemuatan tidak akan menjadi subruang dari kita Ruang 3d direntang oleh dan dua variabel lainnya), dan proyeksi h ′ akan memiliki panjang lain dan dengan sudut lain α . (Perbedaan teoritis antara PCA dan analisis faktor dijelaskan secara geometris di sini melalui representasi ruang subjek dan di sini melalui representasi ruang variabel.)V h′ α
A membalas permintaan @Antoni Parellada dalam komentar. Ini setara apakah Anda lebih suka berbicara dalam halvariansatau dalam halsebar(SS deviasi): varians = sebar / (n-1), di mananadalah ukuran sampel. Karena kita berurusan dengan satu dataset dengann yangsama, konstanta tidak mengubah apa pun dalam rumus. JikaXadalah data (dengan variabel V, W, U berpusat), maka komposisi eigend dari matriks kovarians (A) -nya menghasilkan nilai eigen yang sama (varian komponen) dan vektor eigen sebagai komposisi eigend dari komposisi (B) matriks sebaran X ′ Xa,b /(n−1) n n X X′X diperoleh setelah pembagian awal oleh √X faktor. Setelah itu, dalam rumus pemuatan (lihat bagian tengah jawaban),a1=h⋅s1⋅cosϕ, istilahhadalahst. penyimpangan √n−1−−−−−√ a1=h⋅s1⋅cosϕ h di (A) tetapi root scatter (yaitu norma)‖V‖in (B). Terms1, yang sama dengan1,adalahstandar yangF1komponen st. penyimpangan √varV−−−−√ ∥V∥ s1 1 F1 in (A) tetapi root scatter‖F1‖in (B). Akhirnya,cosϕ=radalah korelasi yangtidak sensitifterhadap penggunaann-1dalam perhitungannya. Jadi, kita hanyaberbicarasecara konseptual tentang varians (A) atau scatters (B), sementara nilai-nilai itu sendiri tetap sama dalam rumus di kedua contoh.varF1−−−−−√ ∥F1∥ cosϕ=r n−1
sumber