Setelah melakukan PCA, komponen pertama menjelaskan bagian terbesar dari variabilitas. Ini penting misalnya dalam studi pengukuran tubuh di mana umumnya dikenal (Jolliffe, 2002) bahwa sumbu PC1 menangkap variasi ukuran. Pertanyaan saya adalah apakah skor PCA setelah rotasi varimax mempertahankan sifat yang sama atau apakah mereka berbeda seperti yang disebutkan dalam topik ini ?
Karena saya memerlukan skor PCA untuk analisis statistik lebih lanjut, saya bertanya-tanya apakah varimax diperlukan dan apakah itu benar-benar mengganggu representasi variabilitas sampel nyata sehingga skor individu pada sumbu yang diputar tidak informatif atau menyebabkan kesalahan interpretasi terhadap kenyataan?
Dapatkah seseorang menyarankan beberapa referensi lain tentang topik ini?
Alur kerja di R:
- PCA (
FactoMineR
atauprcomp
) -> Ekstrak skor individual -> Masukkan skor dilm
- PCA (
FactoMiner
atauprcomp
) -> Varimax pada memuat matriks -> menghitung skor individu -> masukkan skor dilm
- FA (
psych
, metode ekstraksi varimax dan pca) -> ekstrak skor individual -> Masukkan skor dalamlm
Sekarang, tanpa rotasi (1.) persentase dari variabilitas yang dijelaskan adalah 29,32, 5,6, 3,2, pada tiga sumbu pertama. 2. dan 3. solusi menghasilkan persentase yang sama pada tiga faktor pertama yaitu 12.2, 12.1, 8.2. Tentu saja 1. solusi cenderung mendorong semua beban variabel tinggi pada sumbu pertama, sedangkan 2. dan 3. cenderung mendistribusikan beban antar sumbu (yang merupakan alasan untuk rotasi). Saya ingin tahu apakah ketiga alur kerja ini penting sama karena skor individu berbeda pada sumbu yang diputar vs yang tidak diputar?
sumber
Jawaban:
Komponen utama standar (untuk unit varians) setelah rotasi ortogonal, seperti varimax, hanya diputar komponen utama standar (dengan "komponen utama" yang saya maksud skor PC). Dalam regresi linier, penskalaan masing-masing prediktor tidak memiliki efek dan mengganti prediktor dengan kombinasi liniernya (misalnya melalui rotasi) juga tidak berpengaruh. Ini berarti menggunakan salah satu dari yang berikut ini dalam regresi:
akan mengarah ke model regresi yang sama persis dengan identik , daya prediksi, dll. (Koefisien regresi individu tentu saja akan tergantung pada normalisasi dan pilihan rotasi.)R2
Varians total yang ditangkap oleh PC mentah dan PC yang diputar adalah sama.
Ini menjawab pertanyaan utama Anda. Namun, Anda harus berhati-hati dengan alur kerja Anda, karena sangat mudah untuk menjadi bingung dan mengacaukan perhitungan. Cara paling sederhana untuk mendapatkan skor PC yang diputar standar adalah dengan menggunakan
psych::principal
fungsi:Alur kerja Anda # 2 bisa lebih rumit daripada yang Anda pikirkan, karena memuat setelah rotasi varimax tidak ortogonal, jadi untuk mendapatkan skor Anda tidak bisa hanya memproyeksikan data ke beban yang diputar. Lihat jawaban saya di sini untuk perincian:
Alur kerja Anda # 3 mungkin juga salah, setidaknya jika Anda merujuk ke
psych::fa
fungsinya. Itu tidak melakukan PCA; yangfm="pa"
metode ekstraksi mengacu pada metode "faktor utama" yang didasarkan pada PCA, tetapi tidak identik dengan PCA (itu adalah metode iterasi). Seperti yang saya tulis di atas, Anda perlupsych::principal
melakukan PCA.Lihat jawaban saya di utas berikut untuk akun terperinci tentang PCA dan varimax:
sumber