Bagaimana cara menginterpretasikan pemuatan PCA?

13

Saat membaca tentang PCA, saya menemukan penjelasan berikut:

Misalkan kita memiliki kumpulan data di mana setiap titik data mewakili skor siswa tunggal pada tes matematika, tes fisika, tes membaca pemahaman, dan tes kosa kata.

Kami menemukan dua komponen utama pertama, yang menangkap 90% variabilitas dalam data, dan menginterpretasikan pemuatannya. Kami menyimpulkan bahwa komponen utama pertama mewakili kemampuan akademik secara keseluruhan, dan yang kedua mewakili kontras antara kemampuan kuantitatif dan kemampuan verbal.

Teks menyatakan bahwa PC1 dan PC2 memuat untuk PC1 dan untuk PC2, dan menawarkan penjelasan berikut:( 0,5 , 0,5 , - 0,5 , - 0,5 )(0,5,0,5,0,5,0,5)(0,5,0,5,-0,5,-0,5)

Komponen pertama proporsional dengan skor rata-rata, dan komponen kedua mengukur perbedaan antara pasangan skor pertama dan pasangan skor kedua.

Saya tidak dapat mengerti apa arti penjelasan ini.

priyanka
sumber
7
Entah bagaimana @ ttnphns menjawab banyak detail matematis, tapi saya pikir pertanyaan aslinya benar-benar langsung: mengapa vektor pemuatan untuk PC1 dari (0,5, 0,5, 0,5, 0,5) berarti komponen pertama "sebanding dengan skor rata-rata "? Yah, jawabannya adalah bahwa beban [sebanding dengan] koefisien dalam kombinasi linear dari variabel asli yang membentuk PC1. Jadi PC1 pertama Anda adalah jumlah dari keempat variabel kali 0,5. Yang berarti proporsional dengan rata-rata keempat variabel. Dan mirip dengan PC2. Saya pikir ini menjawab pertanyaan awal.
Amuba mengatakan Reinstate Monica
@amoeba - Tahukah Anda betapa sulitnya menemukan penjelasan pemuatan yang begitu sederhana. Entah bagaimana, di mana-mana itu adalah seteguk empedu jargon seluruh saya sebelum saya memutuskan untuk pindah ke penjelasan selanjutnya di google. Terima kasih!
MiloMinderbinder

Jawaban:

13

Pemuatan (yang tidak harus dikacaukan dengan vektor eigen) memiliki properti berikut:

  1. Jumlah kuadrat mereka dalam setiap komponen adalah nilai eigen (varian komponen).
  2. Memuat adalah koefisien dalam kombinasi linear yang memprediksi variabel oleh komponen (terstandarisasi).

Anda mengekstraksi 2 PC pertama dari 4. Matriks memuat dan nilai eigen:SEBUAH

A (loadings)
         PC1           PC2
X1   .5000000000   .5000000000 
X2   .5000000000   .5000000000 
X3   .5000000000  -.5000000000 
X4   .5000000000  -.5000000000
Eigenvalues:
    1.0000000000  1.0000000000

Dalam hal ini, kedua nilai eigen itu sama. Ini adalah kasus yang jarang terjadi di dunia nyata, dikatakan bahwa PC1 dan PC2 memiliki "kekuatan" penjelas yang sama.

Misalkan Anda juga menghitung nilai komponen, Nx2matriks , dan Anda terstandarisasi-z (rata-rata = 0, st. Dev. = 1) di dalam setiap kolom. Kemudian (sebagai titik 2 di atas mengatakan), X = C A ' . Tapi, karena Anda hanya tersisa 2 PC dari 4 (Anda kurang 2 kolom lebih banyak di A ) nilai-nilai data yang dipulihkan X tidak tepat, - ada kesalahan (jika nilai eigen 3, 4 tidak nol).CX^=CSEBUAHSEBUAHX^

BAIK. Apa koefisien untuk memprediksi komponen berdasarkan variabel ? Jelas, jika penuh , ini akan menjadi B = ( A - 1 ) . Dengan matriks pemuatan non-kuadrat, kita dapat menghitungnya sebagai B = A d i a g ( e i g e n v a l u e s ) - 1 = ( A + ) , di manaSEBUAH4x4B=(SEBUAH-1)B=SEBUAHdsayaSebuahg(esayagenvSebuahlkamues)-1=(SEBUAH+)diag(eigenvalues)adalah matriks diagonal persegi dengan nilai eigen pada diagonalnya, dan +superscript menunjukkan pseudoinverse. Dalam kasus Anda:

diag(eigenvalues):
1 0
0 1

B (coefficients to predict components by original variables):
    PC1           PC2
X1 .5000000000   .5000000000 
X2 .5000000000   .5000000000 
X3 .5000000000  -.5000000000 
X4 .5000000000  -.5000000000

Jadi, jika adalah matriks dari variabel berpusat asli (atau variabel standar, jika Anda melakukan PCA berdasarkan korelasi daripada kovarian), maka C = X B ; C adalah skor komponen utama standar. Yang dalam contoh Anda adalah:XNx4C=XBC

PC1 = 0,5 * X1 + 0,5 * X2 + 0,5 * X3 + 0,5 * X4 ~ (X1 + X2 + X3 + X4) / 4

"komponen pertama sebanding dengan skor rata-rata"

PC2 = 0,5 * X1 + 0,5 * X2 - 0,5 * X3 - 0,5 * X4 = (0,5 * X1 + 0,5 * X2) - (0,5 * X3 + 0,5 * X4)

"komponen kedua mengukur perbedaan antara pasangan skor pertama dan pasangan skor kedua"

B=SEBUAH


B=SEBUAHdsayaSebuahg(esayagenvSebuahlkamues)-1B=R-1SEBUAHRmenjadi matriks variabel kovarians (atau korelasi). Formula yang terakhir datang langsung dari teori regresi linier. Kedua formula tersebut setara dalam konteks PCA saja. Dalam analisis faktor, mereka tidak dan untuk menghitung skor faktor (yang selalu merupakan perkiraan dalam FA) kita harus bergantung pada formula kedua.


Jawaban saya yang terkait:

Lebih rinci tentang memuat vs vektor eigen .

Bagaimana skor komponen utama dan skor faktor dihitung .

ttnphns
sumber
2
Jika 2 komponen dari 4 merupakan 90% dari variabilitas, mengapa nilai eigennya berjumlah 2?
Nick Cox
Nick, saya percaya ini pertanyaan untuk OP. Dia tidak memberikan data atau matriks kovarians / korelasi. Yang kami miliki darinya adalah matriks pemuatan 2 PC pertama (yang agak tidak realistis).
ttnphns
3
4×44150%90%