Menggunakan data ini:
head(USArrests)
nrow(USArrests)
Saya dapat melakukan PCA sebagai berikut:
plot(USArrests)
otherPCA <- princomp(USArrests)
Saya bisa mendapatkan komponen baru
otherPCA$scores
dan proporsi varian dijelaskan oleh komponen dengan
summary(otherPCA)
Tetapi bagaimana jika saya ingin tahu variabel mana yang sebagian besar dijelaskan oleh komponen utama mana? Dan sebaliknya: apakah PC1 atau PC2 kebanyakan dijelaskan oleh murder
? Bagaimana saya bisa melakukan ini?
Dapatkah saya katakan misalnya bahwa PC1 80% dijelaskan oleh murder
atau assault
?
Saya pikir memuat membantu saya di sini, tetapi mereka menunjukkan directionality bukan varians yang dijelaskan seperti yang saya pahami, misalnya
otherPCA$loadings
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
Murder 0.995
Assault -0.995
UrbanPop -0.977 -0.201
Rape -0.201 0.974
r
pca
dimensionality-reduction
regression-strategies
pengguna1320502
sumber
sumber
Jawaban:
Anda benar, memuat dapat membantu Anda di sini. Mereka dapat digunakan untuk menghitung korelasi antara variabel dan komponen utama. Selain itu, jumlah pemuatan kuadrat dari satu variabel atas semua komponen utama sama dengan 1. Oleh karena itu, pemuatan kuadrat memberi tahu Anda proporsi varians dari satu variabel yang dijelaskan oleh satu komponen utama.
Masalahnya dengan princomp adalah, itu hanya menunjukkan beban "sangat tinggi". Tetapi karena pemuatan hanya vektor eigen dari matriks kovarians, kita bisa mendapatkan semua pemuatan menggunakan
eigen
perintah di R:Sekarang, Anda memiliki informasi yang diinginkan dalam matriks
explvar
.sumber
assault
atauurban pop
kita bisa melakukan ini? sebagian bingung karena hanya ada satu korelasi hadir dalam matriks untukassault
Saya pikir jawaban yang diterima bisa menyesatkan berbahaya (-1). Setidaknya ada empat pertanyaan berbeda yang digabungkan bersama dalam OP. Saya akan mempertimbangkan mereka satu demi satu.
Selain itu, jika PCA dilakukan pada kovarian (dan bukan pada korelasi), maka memuat juga akan memberi Anda kovarian, bukan korelasi. Untuk mendapatkan korelasi, kita perlu menghitungnya secara manual, mengikuti PCA. [Jawaban yang saat ini diterima tidak jelas tentang itu.]
Cara memilih subset yang menjelaskan jumlah varians yang diberikan, disarankan oleh @FrankHarrell (+1).
sumber
sumber
Data penangkapan AS yang digabungkan dengan R hanyalah sebuah contoh di sini, tetapi saya perhatikan bahwa perhitungan pemuatan dalam pertanyaan tersebut berasal dari PCA dari matriks kovarians . Itu di suatu tempat antara sewenang-wenang dan tidak masuk akal, karena variabel diukur pada skala yang berbeda.
Populasi perkotaan terlihat seperti persen. California 91% dan tertinggi.
Tiga variabel kejahatan tampaknya adalah jumlah penangkapan untuk kejahatan yang diekspresikan relatif terhadap ukuran populasi (mungkin untuk beberapa periode waktu). Mungkin itu didokumentasikan di suatu tempat entah itu penangkapan per 1000 atau 10.000 atau apa pun.
Rata-rata dari variabel serangan di unit yang diberikan adalah sekitar 171 dan pembunuhan rata-rata sekitar 8. Jadi, penjelasan beban Anda adalah bahwa sebagian besar polanya adalah artefak: itu tergantung pada variabilitas variabel yang sangat berbeda.
Jadi, meskipun ada data yang masuk akal bahwa ada lebih banyak penangkapan karena serangan daripada pembunuhan, dll., Fakta yang diketahui (atau tidak mengejutkan) mendominasi analisis.
Ini menunjukkan bahwa, sebagaimana di mana pun dalam statistik, Anda harus memikirkan apa yang Anda lakukan dalam PCA.
Jika Anda mengambil ini lebih lanjut:
Saya berpendapat bahwa persen perkotaan lebih baik ditinggalkan dari analisis. Menjadi urban bukanlah kejahatan; tentu saja dapat melayani proxy untuk variabel yang mempengaruhi kejahatan.
PCA berdasarkan matriks korelasi akan lebih masuk akal dalam pandangan saya. Kemungkinan lain adalah bekerja dengan logaritma tingkat penangkapan, bukan tingkat penangkapan (semua nilai positif; lihat di bawah).
Catatan: Jawaban @ random_guy sengaja menggunakan matriks kovarians.
Berikut adalah beberapa statistik ringkasan. Saya menggunakan Stata, tapi itu tidak penting.
sumber