Metode untuk menghitung skor faktor, dan apa matriks “koefisien skor” dalam PCA atau analisis faktor?

20

Sesuai pemahaman saya, di PCA berdasarkan korelasi kita mendapatkan faktor (= komponen utama dalam contoh ini) memuat yang tidak lain adalah korelasi antara variabel dan faktor. Sekarang ketika saya perlu menghasilkan skor faktor dalam SPSS, saya bisa langsung mendapatkan skor faktor setiap responden untuk setiap faktor. Saya juga mengamati bahwa jika saya mengalikan " matriks koefisien skor komponen " (seperti yang diproduksi oleh SPSS) dengan variabel asli standar, saya mendapatkan skor faktor yang sama seperti yang diperoleh dari SPSS.

Dapatkah seseorang tolong bantu saya memahami bagaimana "matriks koefisien skor komponen" atau "matriks koefisien skor faktor" - yang dengannya saya dapat menghitung skor faktor atau komponen - dihitung? Bagaimana perbedaan metode skor faktor komputasi berbeda pada matriks ini?

Kartikeya Pandey
sumber
1
Rumus diberikan misalnya di sini stats.stackexchange.com/a/92512/3277 .
ttnphns
@amoeba, jika seseorang melakukan PCA, kata "skor faktor" berarti "skor komponen", mereka setara. Lihat bagian bawah jawaban tertaut di atas - dalam model PCA, rumus yang paling sering digunakan untuk menghitung skor faktor dalam FA menghasilkan skor komponen yang tepat (standar).
ttnphns
2
SPSS menampilkan Anda matriks dari koefisien dan juga menghemat skor (standar) sebagai variabel baru, menambahkan mereka ke dataset asli variabel X . OP - saya pikir - standar X dan kemudian multuplied, X B . Dan, voila, itu yang ditambahkan SPSS ke dataset! Jadi, pertanyaan OP adalah Wow! diikuti oleh "bagaimana B dihitung?". BXXXBB
ttnphns
@ttnphs Anda benar mengerti apa yang saya maksud. Tetapi masalah saya adalah bahwa saya berasumsi bahwa jika saya menggunakan XB untuk memprediksi faktor socre dari setiap pengamatan maka B seharusnya menjadi faktor pembebanan tetapi dalam SPSS, itu adalah "matriks koefisien skor komponen" bukan "pemuatan faktor yang diputar" itulah sebabnya Saya ingin memahami hubungan atau perbedaan antara "pemuatan faktor yang diputar" dan "matriks koefisien skor komponen".
Kartikeya Pandey
JADI ketika saya mendapat pengertian dari tautan, saya hanya ingin memastikan sekali, jika A diputar faktor loading maka (Inverse (A)) 'adalah "komponen koefisien skor matriks" yang juga dapat dihitung dengan menggunakan rumus A⋅diag. Inverse ((nilai eigen))
Kartikeya Pandey

Jawaban:

25

Metode perhitungan skor faktor / komponen

Setelah serangkaian komentar saya akhirnya memutuskan untuk mengeluarkan jawaban (berdasarkan komentar dan banyak lagi). Ini tentang menghitung skor komponen dalam PCA dan skor faktor dalam analisis faktor.

Faktor / skor komponen diberikan oleh F = X B , di mana X adalah variabel dianalisis ( berpusat jika analisis PCA / faktor didasarkan pada covariances atau z-standar jika itu didasarkan pada korelasi). B adalah matriks koefisien faktor / komponen (atau bobot) . Bagaimana bobot ini bisa diperkirakan?F^=XBXB

Notasi

-matrix dari variabel (item) korelasi atau kovariansi, mana yang dianalisis faktor / PCA.Rp x p

-matriks beban faktor / komponen. Ini mungkin memuat setelah ekstraksi (sering juga dilambangkan A ) dimana laten itu ortogonal atau bisa dibilang demikian, atau memuat setelah rotasi, ortogonal atau miring. Jika rotasimiring, itu harusmemuatpola.Pp x mSEBUAH

-matrix korelasi antara faktor / komponen setelah rotasi miring (beban). Jika tidak ada rotasi atau rotasi orthogonal dilakukan, ini adalahmatriksidentitas.Cm x m

-matriks mengurangi direproduksi korelasi / covariances,=PCP'(=PP'untuk solusi ortogonal), mengandung communalities pada diagonal.R^p x p=PCP=PP

-matriks diagonal keunikan (keunikan + komunalitas = elemen diagonal R ). Saya menggunakan "2" sebagai subskrip di sini alih-alih superskrip ( U 2 ) untuk kenyamanan keterbacaan dalam rumus.U2p x pRU2

-matriks penuh direproduksi korelasi / covariances, = R + U 2 .Rp x p=R^+U2

- pseudoinverse dari beberapa matriks M ; jika M adalah peringkat penuh, M + = ( M M ) - 1 M .M.+M.M.M.+=(M.M.)-1M.

- untuk beberapa persegi simetris matriks M penggalangan untuk p o w e r jumlah untuk eigendecomposing H K H ' = M , meningkatkan nilai eigen untuk kekuatan dan menyusun kembali: M p o w e r = H K p o w e r H .M.halHaiwerM.halHaiwerHKH=M.M.halHaiwer=HKhalHaiwerH

Metode kasar skor faktor / komponen komputasi

Pendekatan populer / tradisional ini, kadang-kadang disebut Cattell's, hanya rata-rata (atau meringkas) nilai-nilai item yang dimuat oleh faktor yang sama. Secara matematis, itu dilakukan untuk menetapkan bobot dalam perhitungan skor F = X B . Ada tiga versi utama dari pendekatan: 1) Gunakan pemuatan sebagaimana adanya; 2) Dikotomikan (1 = dimuat, 0 = tidak dimuat); 3) Gunakan pemuatan sebagaimana adanya tetapi pemuatan tanpa muatan lebih kecil dari batas tertentu.B=PF^=XB

Seringkali dengan pendekatan ini ketika item berada pada unit skala yang sama, nilai digunakan hanya mentah; meskipun tidak mematahkan logika anjak piutang orang akan lebih baik menggunakan X saat memasuki anjak - standar (= analisis korelasi) atau terpusat (= analisis kovarian).XX

Kerugian utama dari metode kasar untuk menghitung faktor / skor komponen dalam pandangan saya adalah bahwa hal itu tidak memperhitungkan korelasi antara item yang dimuat. Jika item yang dimuat oleh faktor berkorelasi erat dan satu dimuat lebih kuat dari yang lainnya, yang terakhir dapat dianggap sebagai duplikat yang lebih muda dan bobotnya dapat dikurangi. Metode yang disempurnakan melakukannya, tetapi metode kasar tidak bisa.

Skor kasar tentu saja mudah untuk dihitung karena tidak diperlukan inversi matriks. Keuntungan dari metode kasar (menjelaskan mengapa masih banyak digunakan terlepas dari ketersediaan komputer) adalah bahwa ia memberikan skor yang lebih stabil dari sampel ke sampel ketika pengambilan sampel tidak ideal (dalam arti keterwakilan dan ukuran) atau item untuk analisis tidak dipilih dengan baik. Untuk mengutip satu makalah, "Metode skor penjumlahan mungkin paling diinginkan ketika skala yang digunakan untuk mengumpulkan data asli tidak diuji dan dieksplorasi, dengan sedikit atau tidak ada bukti reliabilitas atau validitas". Selain itu, tidak perlu memahami "faktor" sebagai esensi laten univariat, sebagaimana model analisis faktor mengharuskannya ( lihat , lihat). Anda dapat, misalnya, konsep faktor sebagai kumpulan fenomena - maka untuk menjumlahkan nilai item masuk akal.

Metode skor faktor / komponen komputasi yang disempurnakan

Metode-metode ini adalah apa yang dilakukan paket faktor analitik. Mereka memperkirakan dengan berbagai metode. Sementara pembebanan A atau P adalah koefisien kombinasi linear untuk memprediksi variabel berdasarkan faktor / komponen, B adalah koefisien untuk menghitung skor faktor / komponen di luar variabel.BSEBUAHPB

Skor yang dihitung melalui diskalakan: mereka memiliki varian yang sama dengan atau mendekati 1 (terstandarisasi atau hampir terstandarisasi) - bukan varian faktor yang sebenarnya (yang sama dengan jumlah beban struktur kuadrat, lihat Catatan Kaki 3 di sini ). Jadi, ketika Anda perlu memberikan skor faktor dengan varians faktor sebenarnya, gandakan skor (setelah distandarisasi menjadi st.dev. 1) dengan akar kuadrat dari varians itu.B

Anda dapat menyimpan dari analisis yang dilakukan, untuk dapat menghitung skor untuk pengamatan X baru yang akan datang . Juga, B dapat digunakan untuk item berat yang merupakan skala kuesioner ketika skala dikembangkan dari atau divalidasi oleh analisis faktor. (Kuadrat) koefisien B dapat diartikan sebagai kontribusi item ke faktor. Koefisien dapat distandarisasi seperti koefisien regresi terstandarisasi β = b σ i t e mBXBB (di manaσfactor=1) untuk membandingkan kontribusi dari item dengan varians yang berbeda.β=bσitemσfactorσfactor=1

Lihat contoh yang menunjukkan perhitungan yang dilakukan dalam PCA dan FA, termasuk perhitungan skor dari matriks koefisien skor.

Penjelasan geometris tentang pemuatan (sebagai koordinat tegak lurus) dan koefisien skor b (koordinat miring) dalam pengaturan PCA disajikan pada dua gambar pertama di sini .ab

Sekarang dengan metode yang disempurnakan.

Metode

Perhitungan dalam PCAB

Ketika pemuatan komponen diekstraksi tetapi tidak diputar, , di mana L adalah matriks diagonal yang terdiri dari nilai eigen; rumus ini sama dengan membagi setiap kolom A dengan nilai eigen masing-masing - varians komponen.B=AL1LmA

Setara, . Formula ini berlaku juga untuk komponen (pemuatan) yang diputar, ortogonal (seperti varimax), atau miring.B=(P+)

Beberapa metode yang digunakan dalam analisis faktor (lihat di bawah), jika diterapkan dalam PCA mengembalikan hasil yang sama.

Skor komponen yang dihitung memiliki varian 1 dan mereka adalah nilai komponen standar yang benar .

Apa yang dalam analisis data statistik disebut matriks koefisien komponen utama , dan jika dihitung dari matriks pemuatan yang lengkap dan tidak terputar, dalam literatur pembelajaran mesin sering diberi label matriks pemutih (berbasis PCA) , dan komponen utama yang distandarisasi adalah diakui sebagai data "diputihkan".Bp x p

Perhitungan dalam analisis Faktor umumB

Tidak seperti nilai komponen, faktor skor yang tidak pernah tepat ; mereka hanya perkiraan untuk nilai benar tidak diketahui dari faktor-faktor. Ini karena kita tidak tahu nilai-nilai komunalitas atau keunikan pada tingkat kasus, - karena faktor, tidak seperti komponen, adalah variabel eksternal yang terpisah dari yang nyata, dan memiliki distribusinya sendiri, tidak diketahui oleh kita. Yang menjadi penyebab ketidakpastian skor faktor tersebut . Perhatikan bahwa masalah ketidakpastian ditentukan secara logis tidak tergantung pada kualitas solusi faktor: seberapa banyak faktor itu benar (sesuai dengan laten yang menghasilkan data dalam populasi) adalah masalah lain daripada seberapa banyak skor responden dari suatu faktor benar (perkiraan akurat) dari faktor yang diekstraksi).F

Karena skor faktor adalah perkiraan, metode alternatif untuk menghitungnya ada dan bersaing.

Regresi atau metode Thurstone atau Thompson untuk memperkirakan skor faktor diberikan oleh B=R1PC=R1S , di mana adalah matriks beban struktur (untuk solusi faktor ortogonal, kita tahu A = P = S ). Fondasi metode regresi adalah dalam catatan kaki 1 .S=PCA=P=S1

Catatan. Rumus untuk ini dapat digunakan juga dengan PCA: ini akan memberikan, dalam PCA, hasil yang sama dengan rumus yang dikutip pada bagian sebelumnya.B

Dalam FA (tidak PCA), nilai faktor regressionally dihitung akan muncul tidak cukup "standar" - akan memiliki varians tidak 1, tapi sama dengan SSregr(n1) dari regresi skor ini oleh variabel. Nilai ini dapat diartikan sebagai tingkat penentuan suatu faktor (nilai sebenarnya yang tidak diketahui) oleh variabel - R-square dari prediksi faktor nyata oleh mereka, dan metode regresi memaksimalkannya, - "validitas" dihitung skor. Gambar 2 menunjukkan geometri. (Harap dicatat bahwa S S r e g r2 akan sama dengan varians skor untuk metode yang dimurnikan, namun hanya untuk metode regresi kuantitas akan sama dengan proporsi penentuan true f. nilai oleh f. skor.)SSregr(n1)

Sebagai varian dari metode regresi, seseorang dapat menggunakan sebagai ganti R dalam formula. Dibutuhkan dengan alasan bahwa dalam analisis faktor yang baik R dan R sangat mirip. Namun, ketika mereka tidak, terutama ketika jumlah faktor kurang dari jumlah populasi yang sebenarnya, metode ini menghasilkan bias yang kuat dalam skor. Dan Anda sebaiknya tidak menggunakan metode "regresi R yang direproduksi" ini dengan PCA.RRRRm

Metode PCA , juga dikenal sebagai pendekatan variabel Horst (Mulaik) atau ideal (ized) (Harman). Ini adalah metode regresi dengan R di tempat RR^R dalam formula nya. Dapat dengan mudah ditunjukkan bahwa rumus kemudian direduksi menjadi (dan jadi ya, kita sebenarnya tidak perlu tahu C dengan itu). Skor faktor dihitung seolah-olah skor komponen.B=(P+)C

[Label "diidealkan variabel" berasal dari fakta bahwa sejak menurut faktor atau komponen Model bagian prediksi variabel X = F P ' , maka F = ( P + ) ' X , tapi kami mengganti X untuk diketahui (ideal) X , untuk memperkirakan F sebagai nilai F ; oleh karena itu kami "mengidealkan" X. ]X^=FPF=(P+)X^XX^FF^X

Harap dicatat bahwa metode ini tidak melewatkan skor komponen PCA untuk skor faktor, karena beban yang digunakan bukan beban PCA tetapi analisis faktor '; hanya saja pendekatan perhitungan untuk skor mencerminkan hal itu di PCA.

Metode Bartlett . Di sini, . Metode ini berupaya meminimalkan, untuk setiap responden, varince lintas faktor unik ("kesalahan"). Variansi dari skor faktor umum yang dihasilkan tidak akan sama dan mungkin melebihi 1.B=(PU2-1P)-1PU2-1p

Metode Anderson-Rubin dikembangkan sebagai modifikasi dari sebelumnya. . Variansi skor akan tepat 1. Namun, metode ini hanya untuk solusi faktor ortogonal (untuk solusi miring akan menghasilkan skor ortogonal yang masih).B=(PU2-1RU2-1P)-1/2PU2-1

Metode McDonald-Anderson-Rubin . McDonald memperluas Anderson-Rubin ke solusi faktor miring juga. Jadi yang ini lebih umum. Dengan faktor ortogonal, sebenarnya berkurang menjadi Anderson-Rubin. Beberapa paket mungkin menggunakan metode McDonald's sambil menyebutnya "Anderson-Rubin". Rumusnya adalah: , di mana G dan H diperoleh di svd ( R 1 / 2 U -B=R-1/2GHC1/2GH . (Gunakan hanyakolompertamadalam G , tentu saja.)svd(R1/2U2-1PC1/2)=GΔHmG

Metode hijau . Menggunakan rumus yang sama seperti McDonald-Anderson-Rubin, tapi dan H adalah sebagai: svd ( R - 1 / 2 P C 3 / 2 ) = G Δ H ' . (Gunakan hanya kolom pertama dalam G , tentu saja.) Metode Green tidak menggunakan informasi komunitas (atau keunikan). Ini mendekati dan konvergen ke metode McDonald-Anderson-Rubin sebagai komunitas aktual variabel menjadi lebih dan lebih sama. Dan jika diterapkan pada pemuatan PCA, Green mengembalikan skor komponen, seperti metode PCA asli.GHsvd(R-1/2PC3/2)=GΔHmG

Metode Krijnen et al . Metode ini adalah generalisasi yang mengakomodasi kedua sebelumnya dengan formula tunggal. Mungkin tidak menambahkan fitur baru atau penting baru, jadi saya tidak mempertimbangkannya.

Perbandingan antara metode yang disempurnakan .

  • Metode regresi memaksimalkan korelasi antara skor faktor dan nilai sebenarnya yang tidak diketahui dari faktor tersebut (yaitu memaksimalkan validitas statistik ), tetapi skor tersebut agak bias dan mereka agak salah berkorelasi antara faktor-faktor (misalnya, mereka berkorelasi bahkan ketika faktor-faktor dalam suatu solusi ortogonal). Ini adalah estimasi kuadrat-terkecil.

  • Metode PCA juga kuadrat terkecil, tetapi dengan validitas statistik yang lebih sedikit. Mereka lebih cepat untuk menghitung; mereka tidak sering digunakan dalam analisis faktor saat ini, karena komputer. (Dalam PCA , metode ini asli dan optimal.)

  • Skor Bartlett adalah estimasi yang tidak bias dari nilai faktor sebenarnya. Skor dihitung untuk berkorelasi secara akurat dengan nilai-nilai faktor-faktor lain yang benar dan tidak diketahui (misalnya tidak berkorelasi dengan mereka dalam solusi ortogonal, misalnya). Namun, mereka masih dapat berkorelasi secara tidak akurat dengan skor faktor yang dihitung untuk faktor-faktor lain. Ini adalah perkiraan maksimum (di bawah normalitas multivarian dari asumsi ).X

  • Skor Anderson-Rubin / McDonald-Anderson-Rubin dan Green disebut pelestarian korelasi karena dihitung untuk berkorelasi secara akurat dengan skor faktor dari faktor lain. Korelasi antara skor faktor sama dengan korelasi antara faktor-faktor dalam solusi (jadi dalam solusi ortogonal, misalnya, skor akan sangat tidak berkorelasi). Tetapi skor agak bias dan validitasnya mungkin sederhana.

Periksa tabel ini juga:

masukkan deskripsi gambar di sini

[Catatan untuk pengguna SPSS: Jika Anda melakukan PCA ("komponen utama" metode ekstraksi) tetapi meminta skor faktor selain metode "Regresi", program akan mengabaikan permintaan dan akan menghitung Anda "Regresi" skor (yang tepat skor komponen).]

Referensi

  1. Grice, James W. Komputasi dan Mengevaluasi Skor Faktor // Metode Psikologis 2001, Vol. 6, No. 4, 430-450.

  2. DiStefano, Christine et al. Memahami dan Menggunakan Skor Faktor // Penilaian Praktis, Penelitian & Evaluasi, Vol 14, No 20

  3. ten Berge, Jos MFet al. Beberapa hasil baru pada metode prediksi skor faktor pelestarian korelasi // Aljabar Linier dan Aplikasinya 289 (1999) 311-318.

  4. Mulaik, Stanley A. Yayasan Analisis Faktor, Edisi 2, 2009

  5. Harman, Harry H. Modern Factor Analysis, Edisi ke-3, 1976

  6. Neudecker, Heinz. Tentang prediksi skor faktor-faktor yang mempertahankan kovarian tidak bias terbaik // SORT 28 (1) Januari-Juni 2004, 27-36


1F=b1X1+b2X2s1s2F

s1=b1r11+b2r12

s2=b1r12+b2r22,

dengan rmenjadi kovarian antara Xs. Dalam notasi vektor:s=Rb. Dalam metode regresi skor faktor komputasiF kami memperkirakan bs dari benar dikenal rdan ss.


2Gambar berikut adalah kedua gambar di sini yang digabungkan menjadi satu. Ini menunjukkan perbedaan antara faktor umum dan komponen utama. Komponen (vektor merah tipis) terletak pada ruang yang direntang oleh variabel (dua vektor biru), putih "bidang X". Faktor (vektor merah gemuk) menguasai ruang itu. Proyeksi orthogonal Factor pada bidang (vektor abu-abu tipis) adalah skor faktor yang diperkirakan secara regresi. Dengan definisi regresi linier, skor faktor adalah yang terbaik, dalam hal kuadrat terkecil, perkiraan faktor yang tersedia oleh variabel.

masukkan deskripsi gambar di sini

ttnphns
sumber
3
Jawaban yang bagus, terangkat! Hanya ingin memberi tahu Anda bahwa saya terkesan dengan pengetahuan Anda tentang statistik, secara umum, dan analisis faktor, khususnya. Dengan senang hati akan terhubung dengan Anda di LinkedIn dan jejaring sosial lainnya. Omong-omong, FYI: tautan ke situs perusahaan Anda di profil Anda rusak.
Aleksandr Blekh
Sangat bagus, +1. Bisakah Anda berkomentar sedikit tentang "metode penyesalan"? Kenapa disebut seperti itu? Bagaimana cara memotivasi formula ini? Jika kita tahu ituX diperoleh melalui FSEBUAH (ditambah suara), lalu mengapa F (skor faktor standar) diperkirakan sebagai R-1SEBUAH?
Amuba mengatakan Reinstate Monica
Dan satu pertanyaan lagi. Jika seseorang mengasumsikan distribusi faktor Gaussian dan menggunakan algoritma EM agar sesuai dengan model, maka skor faktor kemungkinan maksimum diberikan oleh (menggunakan notasi Anda)(saya+SEBUAHU-2SEBUAH)-1SEBUAHU-2, yang sangat dekat dengan apa yang Anda sebut metode Bartlett, tetapi dengan tambahan sayadi dalam kurung. Apakah pendekatan ini memiliki nama dalam literatur FA? Mengapa perbedaan kecil ini dengan metode Bartlett? Saya mengambil rumus dari "Pengenalan Pola dan Pembelajaran Mesin", bagian 12.2.4.
Amoeba berkata Reinstate Monica
@amoeba, saya menambahkan sedikit info ke jawabannya, sehubungan dengan komentar pertama Anda. Untuk komentar kedua Anda - maaf, saya pikir saya tidak bisa menjawabnya tanpa menggali sendiri buku. Jika Anda menemukan jawabannya sendiri, harap berbaik hati menjelaskannya kepada hadirin. :-)
ttnphns
1
Pembaruan luar biasa @ttnphns, pekerjaan bagus. Saya perhatikan bahwa utas ini telah dilihat sebanyak 13k kali, itu harus peringkat tinggi dalam beberapa pencarian google populer.
Amuba mengatakan Reinstate Monica
-2

Untuk melakukan PCA dalam meteorologi, koefisien korelasi diperoleh dengan menggunakan koefisien korelasi Pearson (jika variabelnya berada dalam unit yang berbeda, karena memungkinkan standar data sehingga mereka dapat dibandingkan secara langsung tanpa perbedaan karena perbedaan ukuran / besarnya antara data, sehingga cara koefisien korelasi hanya dapat membandingkan tingkat varians di sekitar rata-rata, untuk setiap dataset dan antara setiap dataset. Jika tidak, jika semua data diukur menggunakan unit yang sama dimungkinkan untuk menggunakan metode kovarian. SPSS membuatnya mudah.

Ekta
sumber
1
Benar-benar tidak dapat dipahami - bagaimana jawaban terkait dengan pertanyaan (yaitu perhitungan skor komponen / faktor)?
ttnphns
Apa yang terjadi pada pendekatan langsung untuk memperoleh skor PC dalam PCA ketika korelasi digunakan, melibatkan vektor eigen dan matriks skor-z, seperti pada Yn×hal=Ehal×halTZhal×n?
JoleT