Apakah PCA diikuti oleh rotasi (seperti varimax) masih PCA?

63

Saya telah mencoba mereproduksi beberapa penelitian (menggunakan PCA) dari SPSS di R. Dalam pengalaman saya, principal() fungsi dari paket psychadalah satu-satunya fungsi yang mendekati (atau jika ingatan saya benar, mati) untuk mencocokkan output. Untuk mencocokkan hasil yang sama seperti di SPSS, saya harus menggunakan parameter principal(..., rotate = "varimax"). Saya telah melihat makalah berbicara tentang bagaimana mereka melakukan PCA, tetapi berdasarkan pada output SPSS dan penggunaan rotasi, sepertinya analisis Faktor.

Pertanyaan: Apakah PCA, bahkan setelah rotasi (menggunakan varimax), masih PCA? Saya mendapat kesan bahwa ini mungkin sebenarnya adalah Analisis faktor ... Jika tidak, detail apa yang saya lewatkan?

r spss pca factor-analysis factor-rotation Roman Luštrik
sumber

4

Secara teknis, apa pun yang Anda miliki setelah rotasi bukan komponen utama lagi.

Gala

2

Rotasi itu sendiri tidak mengubahnya. Diputar atau tidak, analisisnya seperti apa adanya. PCA bukan FA dalam definisi sempit "analisis faktor", dan PCA adalah FA dalam definisi yang lebih luas tentang "analisis faktor". stats.stackexchange.com/a/94104/3277

ttnphns

1

Halo @Roman! Saya telah meninjau utas lama ini, dan saya terkejut Anda menandai jawaban Brett sebagai diterima. Anda bertanya apakah rotasi PCA + masih PCA, atau apakah itu FA; Jawaban Brett tidak mengatakan sepatah kata pun tentang rotasi! Juga tidak menyebutkan principalfungsi yang Anda tanyakan. Jika jawabannya memang menjawab pertanyaan Anda, maka mungkin pertanyaan Anda tidak dirumuskan secara memadai; apakah Anda akan mempertimbangkan untuk mengedit? Kalau tidak, saya menemukan bahwa jawaban doktor lebih dekat untuk benar-benar menjawab pertanyaan Anda. Perhatikan bahwa Anda dapat mengubah jawaban yang diterima kapan saja.

Amoeba berkata Reinstate Monica

1

Saya harus menambahkan bahwa saya sedang mengerjakan jawaban yang baru, lebih rinci, untuk pertanyaan Anda, jadi saya ingin tahu apakah Anda benar-benar masih tertarik dengan topik ini. Lagipula, empat dan telah bertahun-tahun telah berlalu ...

amuba mengatakan Reinstate Monica

3

@amoeba sayangnya saya tidak bisa menjawab mengapa saya menerima jawaban itu. Meninjau binatang buas tua 4,5 tahun kemudian, saya menyadari tidak ada jawaban yang mendekati. mbq dimulai dari yang dijanjikan tetapi tidak memiliki penjelasan. Tapi tidak masalah, subjeknya sangat membingungkan, mungkin berkat terminologi yang salah dalam perangkat lunak statistik populer untuk ilmu sosial yang tidak akan saya sebutkan dengan singkatan empat huruf. Tolong lakukan posting jawaban dan ping saya, saya akan menerimanya jika saya menemukan lebih dekat dengan saya menjawab pertanyaan saya.

Roman Luštrik

53

Pertanyaan ini sebagian besar tentang definisi PCA / FA, sehingga pendapat mungkin berbeda. Pendapat saya adalah bahwa PCA + varimax tidak boleh disebut PCA atau FA, tetapi lebih tepatnya disebut misalnya "PCA varimax-rotated".

Saya harus menambahkan bahwa ini adalah topik yang cukup membingungkan. Dalam jawaban ini saya ingin menjelaskan apa sebenarnya rotasi itu ; ini akan membutuhkan beberapa matematika. Seorang pembaca biasa dapat langsung beralih ke ilustrasi. Hanya dengan begitu kita dapat mendiskusikan apakah rotasi PCA + seharusnya atau tidak disebut "PCA".

Salah satu rujukannya adalah buku Jolliffe "Analisis Komponen Utama", bagian 11.1 "Rotasi Komponen Utama", tetapi saya merasa bisa lebih jelas.

Biarkan menjadi matriks data yang kita asumsikan terpusat. Jumlah PCA ( lihat jawaban saya di sini ) untuk dekomposisi nilai singular: . Ada dua tampilan yang setara tetapi gratis pada dekomposisi ini: tampilan "proyeksi" gaya PCA yang lebih dan tampilan "variabel laten" gaya FA. $\mathbf X$ $n \times p$ $\mathbf X=\mathbf{USV}^\top$

Menurut pandangan gaya PCA, kami menemukan banyak arah ortogonal (ini adalah vektor eigen dari matriks kovarians, juga disebut "arah utama" atau "sumbu"), dan "komponen utama" ( juga disebut komponen utama "skor") adalah proyeksi data pada arah ini. Komponen utama tidak berkorelasi, yang pertama memiliki varians yang maksimal, dll. Kita dapat menulis: $\mathbf V$ $\mathbf{US}$

X = U S \cdot V^{⊤} = Scores \cdot Principal directions .

$\mathbf X = \mathbf{US}\cdot \mathbf V^\top = \text{Scores} \cdot \text{Principal directions}.$

Menurut pandangan FA-style, kami menemukan beberapa unit-variance tidak berkorelasi "faktor laten" yang menimbulkan variabel yang diamati melalui "pemuatan". Memang, adalah komponen utama standar (tidak berkorelasi dan dengan varian unit), dan jika kita mendefinisikan pemuatan sebagai , lalu (Perhatikan bahwa .) Kedua tampilan sama. Perhatikan bahwa pemuatan adalah vektor eigen yang diskalakan oleh masing-masing nilai eigen ( adalah nilai eigen dari matriks kovarians). $\widetilde{\mathbf U}=\sqrt{n-1}\mathbf{U}$ $\mathbf L = \mathbf{VS}/\sqrt{n-1}$

X = \sqrt{n - 1} U \cdot (V S / \sqrt{n - 1})^{⊤} = \tilde{U} \cdot L^{⊤} = Standardized scores \cdot Loadings .

$\mathbf X= \sqrt{n-1}\mathbf{U}\cdot (\mathbf{VS}/\sqrt{n-1})^\top =\widetilde{\mathbf U}\cdot \mathbf L^\top = \text{Standardized scores} \cdot \text{Loadings}.$

S^{⊤} = S

$\mathbf{S}^\top=\mathbf{S}$

S / \sqrt{n - 1}

$\mathbf{S}/\sqrt{n-1}$

(Saya harus menambahkan tanda kurung yang PCA FA $\ne$ ; FA secara eksplisit bertujuan menemukan faktor laten yang dipetakan secara linier ke variabel yang diamati melalui pemuatan; lebih fleksibel daripada PCA dan menghasilkan pemuatan yang berbeda. Itulah sebabnya saya lebih suka menyebut di atas "Tampilan FA-style pada PCA" dan bukan FA, meskipun beberapa orang menganggapnya sebagai salah satu metode FA.)

Sekarang, apa yang dilakukan rotasi? Misalnya rotasi ortogonal, seperti varimax. Pertama, ia hanya mempertimbangkan komponen , yaitu:Maka dibutuhkan persegi orthogonal matriks , dan colokan ke dalam dekomposisi ini: mana pemuatan yang diputar diberikan oleh $k<p$

X \approx U_{k} S_{k} V_{k}^{⊤} = {\tilde{U}}_{k} L_{k}^{⊤} .

$\mathbf X \approx \mathbf U_k \mathbf S_k \mathbf V_k^\top = \widetilde{\mathbf U}_k \mathbf L^\top_k.$

k \times k

$k \times k$

T

$\mathbf T$

T T^{⊤} = I

$\mathbf T\mathbf T^\top=\mathbf I$

X \approx U_{k} S_{k} V_{k}^{⊤} = U_{k} T T^{⊤} S_{k} V_{k}^{⊤} = {\tilde{U}}_{r o t} L_{r o t}^{⊤},

$\mathbf X \approx \mathbf U_k \mathbf S_k \mathbf V_k^\top = \mathbf U_k \mathbf T \mathbf T^\top \mathbf S_k \mathbf V_k^\top = \widetilde{\mathbf U}_\mathrm{rot} \mathbf L^\top_\mathrm{rot},$

L_{r o t} = L_{k} T

$\mathbf L_\mathrm{rot} = \mathbf L_k \mathbf T$ , Dan diputar skor standar yang diberikan oleh . (Tujuan dari ini adalah untuk menemukan sedemikian rupa sehingga menjadi sedekat mungkin, untuk memfasilitasi interpretasinya.)

{\tilde{U}}_{r o t} = {\tilde{U}}_{k} T

$\widetilde{\mathbf U}_\mathrm{rot} = \widetilde{\mathbf U}_k \mathbf T$

T

$\mathbf T$

L_{r o t}

$\mathbf L_\mathrm{rot}$

Perhatikan bahwa yang dirotasi adalah: (1) skor terstandarisasi, (2) pemuatan. Tapi bukan skor mentah dan bukan arah utama! Jadi rotasi terjadi di ruang laten , bukan di ruang asli. Ini sangat penting.

Dari sudut pandang gaya FA, tidak banyak yang terjadi. (A) Faktor laten masih tidak berkorelasi dan standar. (B) Mereka masih dipetakan ke variabel yang diamati melalui pemuatan (diputar). (C) Jumlah varians yang ditangkap oleh masing-masing komponen / faktor diberikan oleh jumlah nilai kuadrat dari kolom pemuatan yang sesuai di . (D) Secara geometris, pemuatan masih menjangkau subruang dimensi yang sama di (subruang yang direntang oleh vektor eigen PCA pertama ). (E) Perkiraan untuk dan kesalahan rekonstruksi tidak berubah sama sekali. (F) Matriks kovarians masih diperkirakan sama baiknya: $\mathbf L_\mathrm{rot}$ $k$ $\mathbb R^p$ $k$ $\mathbf X$

Σ \approx L_{k} L_{k}^{⊤} = L_{r o t} L_{r o t}^{⊤} .

$\boldsymbol \Sigma \approx \mathbf L_k\mathbf L_k^\top = \mathbf L_\mathrm{rot}\mathbf L_\mathrm{rot}^\top.$

Tetapi sudut pandang gaya PCA praktis telah runtuh. Pemuatan yang diputar tidak sesuai dengan arah / sumbu ortogonal dalam lagi, yaitu kolom tidak ortogonal! Lebih buruk lagi, jika Anda [secara orthogonal] memproyeksikan data ke arah yang diberikan oleh pemuatan yang diputar, Anda akan mendapatkan proyeksi berkorelasi (!) Dan tidak akan dapat memulihkan skor. [Sebagai gantinya, untuk menghitung skor terstandarisasi setelah rotasi, seseorang perlu melipatgandakan matriks data dengan pseudo-invers dari loading . Atau, seseorang dapat dengan mudah memutar skor standar yang asli dengan matriks rotasi: $\mathbb R^p$ $\mathbf L_\mathrm{rot}$ $\widetilde{\mathbf U}_\mathrm{rot} = \mathbf X (\mathbf L_\mathrm{rot}^+)^\top$ $\widetilde{\mathbf U}_\mathrm{rot} = \widetilde{\mathbf U} \mathbf T$ ] Juga, komponen yang diputar tidak secara berturut - turut menangkap jumlah varian maksimal: varian akan didistribusikan kembali di antara komponen (bahkan meskipun semua diputar komponen capture persis sebanyak varians karena semua komponen utama asli). $k$ $k$

Ini sebuah ilustrasi. Data adalah elips 2D yang membentang di sepanjang diagonal utama. Arah utama pertama adalah diagonal utama, yang kedua adalah ortogonal untuk itu. Vektor pemuatan PCA (vektor eigen yang diskalakan oleh nilai eigen) ditunjukkan dengan titik merah di kedua arah dan juga diregangkan oleh faktor konstan untuk visibilitas. Kemudian saya menerapkan rotasi ortogonal sebesar ke beban. Vektor pemuatan yang dihasilkan ditunjukkan dalam magenta. Perhatikan bagaimana mereka tidak ortogonal (!). $30^\circ$

Rotasi PCA

Intuisi FA-style di sini adalah sebagai berikut: bayangkan sebuah "ruang laten" di mana poin mengisi lingkaran kecil (berasal dari Gaussian 2D dengan varian unit). Distribusi titik-titik ini kemudian direntangkan di sepanjang pemuatan PCA (merah) untuk menjadi elips data yang kita lihat pada gambar ini. Namun, distribusi titik yang sama dapat diputar dan kemudian direntangkan di sepanjang pemuatan PCA yang diputar (magenta) untuk menjadi elips data yang sama .

[Untuk benar-benar melihat bahwa rotasi beban orthogonal adalah rotasi , kita perlu melihat biplot PCA; di sana vektor / sinar yang sesuai dengan variabel asli hanya akan diputar.]

Mari kita simpulkan. Setelah rotasi ortogonal (seperti varimax), sumbu "prinsip rotasi" tidak ortogonal, dan proyeksi ortogonal pada mereka tidak masuk akal. Jadi, seseorang harus menjatuhkan seluruh sudut / proyeksi sudut pandang ini. Akan aneh untuk tetap menyebutnya PCA (yang semuanya tentang proyeksi dengan varians maksimal dll).

Dari sudut pandang FA-style, kami hanya memutar faktor laten kami (standar dan tidak berkorelasi), yang merupakan operasi yang valid. Tidak ada "proyeksi" di FA; sebaliknya, faktor laten menghasilkan variabel yang diamati melalui pemuatan. Logika ini masih dipertahankan. Namun, kami mulai dengan komponen utama, yang sebenarnya bukan faktor (karena PCA tidak sama dengan FA). Jadi akan aneh untuk menyebutnya FA juga.

Alih-alih berdebat apakah seseorang "harus" lebih suka menyebutnya PCA atau FA, saya akan menyarankan untuk teliti dalam menentukan prosedur yang tepat digunakan: "PCA diikuti oleh rotasi varimax".

Nota bene. Hal ini mungkin untuk mempertimbangkan prosedur rotasi alternatif, di mana dimasukkan antara dan . Ini akan memutar skor mentah dan vektor eigen (bukan skor dan pemuatan standar). Masalah terbesar dengan pendekatan ini adalah bahwa setelah "rotasi" seperti itu, skor tidak akan berkorelasi lagi, yang cukup fatal untuk PCA. Seseorang dapat melakukannya, tetapi bukan bagaimana rotasi biasanya dipahami dan diterapkan. $\mathbf{TT}^\top$ $\mathbf{US}$ $\mathbf V^\top$

amuba kata Reinstate Monica
sumber

Saya tidak sepenuhnya memahami teks yang mengelilingi gambar. Anda menggunakan "memuat" beberapa kali: PCA loading vectors... are shown in red, stretched along the rotated PCA loadings (magenta). Saya bertanya-tanya bagaimana "memuat" atau "vektor" mereka dapat ditampilkan sebagai sumbu pada sebar data. Bisakah Anda membuatnya lebih jelas? Dan gagasan "peregangan"? Terima kasih.

ttnphns

1

Ini mungkin terkait dengan diskusi panjang yang baru-baru ini kami lakukan tentang memuat "span a subspace" di ruang variabel atau tidak. Dalam jawaban ini saya menggunakan "memuat vektor" (atau hanya "memuat") untuk merujuk ke satu kolom dari matriks memuat. Dalam contoh saya datanya 2D yaitu ada dua variabel, dan demikian juga memuat adalah vektor 2D. Oleh karena itu saya dapat memplotnya pada data sebar (saya diskalakan oleh beberapa faktor konstan untuk visibilitas). Dalam PCA, beban tentu saja adalah ortogonal (mereka sebanding dengan vektor eigen). Setelah varimax, mereka tidak lagi.

Amuba mengatakan Reinstate Monica

Paragraf tentang "peregangan" (tepat setelah gambar) saya mungkin harus menggambarkan lebih baik; Saya dapat melihat bahwa itu tidak terlalu jelas.

Amuba mengatakan Reinstate Monica

Saya berpikir bahwa jika Anda bermaksud untuk merencanakan orthogonality atau nonorthogonality dari beberapa vektor (seperti memuat) Anda harus menggambar mereka sebagai panah. Atau mungkin saya tidak mengerti Anda?

ttnphns

1

Saya setuju bahwa menggunakan panah akan lebih baik, saya hanya menghilangkan "panah" untuk merencanakan kenyamanan. Saya mungkin mengulangi angka ini untuk menambahkannya. Juga, saya menggambar setiap vektor yang menunjuk pada kedua arah karena tanda-tanda mereka tidak masalah.

Amuba kata Reinstate Monica

29

Analisis Komponen Utama (PCA) dan Analisis Faktor Umum (CFA) adalah metode yang berbeda. Seringkali, mereka menghasilkan hasil yang serupa dan PCA digunakan sebagai metode ekstraksi standar dalam rutinitas Analisis Faktor SPSS. Ini tidak diragukan lagi menghasilkan banyak kebingungan tentang perbedaan antara keduanya.

Intinya adalah, ini adalah dua model yang berbeda, secara konseptual. Dalam PCA, komponennya adalah kombinasi linear ortogonal aktual yang memaksimalkan total varians. Dalam FA, faktor-faktornya adalah kombinasi linear yang memaksimalkan bagian bersama dari varian - yang mendasari "konstruksi laten". Itu sebabnya FA sering disebut "analisis faktor umum". FA menggunakan berbagai rutin optimasi dan hasilnya, tidak seperti PCA, tergantung pada rutin optimasi yang digunakan dan titik awal untuk rutinitas tersebut. Sederhananya tidak ada solusi tunggal yang unik.

Dalam R, fungsi factanal () memberikan CFA dengan ekstraksi kemungkinan maksimum. Jadi, Anda seharusnya tidak mengharapkannya mereproduksi hasil SPSS yang didasarkan pada ekstraksi PCA. Itu hanya bukan model atau logika yang sama. Saya tidak yakin apakah Anda akan mendapatkan hasil yang sama jika Anda menggunakan ekstraksi Kemungkinan Maksimum SPSS karena mereka mungkin tidak menggunakan algoritma yang sama.

Baik atau buruk di R, Anda dapat, mereproduksi "analisis faktor" campuran yang disediakan SPSS sebagai standarnya. Inilah proses dalam R. Dengan kode ini, saya dapat mereproduksi hasil Komponen Utama SPSS "Analisis Faktor" menggunakan dataset ini. (Dengan pengecualian tanda, yang tidak pasti). Hasil itu juga dapat diputar menggunakan metode rotasi Rs yang tersedia.

# Load the base dataset attitude to work with.
data(attitude)
# Compute eigenvalues and eigen vectors of the correlation matrix.
pfa.eigen<-eigen(cor(attitude))
# Print and note that eigen values are those produced by SPSS.
# Also note that SPSS will extract 2 components as eigen values > 1 = 2
pfa.eigen$values
# set a value for the number of factors (for clarity)
factors<-2
# Extract and transform two components.
pfa.eigen$vectors [ , 1:factors ]  %*% 
+ diag ( sqrt (pfa.eigen$values [ 1:factors ] ),factors,factors )

Brett
sumber

+1 untuk benar-benar membantu meredam kebingungan di sekitar SPSS vs R di sini. Masih ada dua pertanyaan: Apa yang R prcompatau princomplakukan dibandingkan dengan pendekatan campuran SPSS? Apa yang sebenarnya dilakukan SPSS dengan ekstraksi?

hans0l0

ah, dan bolehkah saya menambahkan cara menghitung skor untuk PC1 misalnya untuk solusi Anda: standarisasi zz <- scale(attitude,T,T)dan pc1 <- zz %*% solve(cor(attitude),lamba[,1]). Di mana lambda adalah hasil dari baris terakhir dari contoh @Brett Magills.

hans0l0

3

-1. Meskipun ada banyak informasi berguna dalam jawaban ini, saya menemukan bahwa itu tidak menjawab pertanyaan asli sama sekali. Pertanyaan aslinya adalah apakah rotasi PCA + masih dapat dianggap PCA (atau lebih tepatnya FA). Jawaban Anda bahkan tidak menyebutkan rotasi! Jadi bagaimana itu bisa menjadi jawaban?

Amoeba berkata Reinstate Monica

1

Mungkin bermanfaat untuk mencatat bahwa Analisis Faktor Umum tidak sama dengan Analisis Faktor Konfirmatori (juga CFA) yang merupakan prosedur yang sama sekali berbeda.

Richard Border

11

Jawaban ini adalah untuk menyajikan, dalam bentuk grafik jalan, hal tentang yang @amoeba beralasan di dalam (tapi sedikit rumit) nya jawaban di thread ini (aku agak setuju dengan itu oleh 95%) dan bagaimana mereka muncul untuk saya .

PCA dalam bentuknya yang semestinya, minimal adalah rotasi ortogonal spesifik dari data yang berkorelasi ke bentuknya yang tidak berkorelasi, dengan komponen utama yang membaca sekuensial secara berurutan lebih sedikit dan lebih sedikit dari keseluruhan variabilitas. Jika hanya pengurangan dimensi yang kita inginkan, biasanya kita tidak menghitung pemuatan dan apa pun yang menyeretnya. Kami senang dengan skor (mentah) komponen utama . [Harap dicatat bahwa notasi pada bagan tidak tepat mengikuti @ amoeba, - Saya tetap pada apa yang saya adopsi dalam beberapa jawaban saya yang lain.] $\bf P$

Pada bagan, saya mengambil contoh sederhana dari dua variabel p=2dan menggunakan kedua komponen utama yang diekstraksi. Meskipun kami biasanya menyimpan hanya beberapa m<pkomponen pertama , untuk pertanyaan teoretis yang kami pertimbangkan ("Apakah PCA dengan rotasi PCA atau apa?") Tidak ada bedanya jika menyimpan matau semuanya p; setidaknya dalam jawaban khusus saya.

Trik pemuatan adalah untuk menarik skala (besarnya, variabilitas, inersia ) dari komponen (skor mentah) dan ke koefisien (vektor eigen) meninggalkan yang sebelumnya menjadi "kerangka" kosong (standar standar) . skor komponen) dan yang terakhir menjadi berdaging (memuat). Anda mengembalikan data dengan sama baiknya dengan keduanya: . Tetapi memuat prospek terbuka: (i) untuk menafsirkan komponen; (ii) dirotasi; (iii) untuk mengembalikan korelasi / kovarian dari variabel. Ini semua karena fakta bahwa variabilitas data telah ditulis dalam beban, sebagai bebannya. $\bf L$ $\bf V$ $\bf P_z$ $\bf A$ $\bf X=PV'=P_zA'$

Dan mereka dapat mengembalikan muatan itu kembali ke titik data kapan saja - sekarang atau setelah rotasi . Jika kita membayangkan rotasi ortogonal seperti varimax itu berarti kita ingin komponen tetap tidak berkorelasi setelah rotasi dilakukan. Hanya data dengan matriks kovarians bola, ketika diputar secara ortogonal, yang mempertahankan ketidakterkaitan. Dan voila, komponen utama standar (yang dalam pembelajaran mesin sering disebut "data PCA-memutihkan") adalah data ajaib ( sebenarnya sebanding dengan kiri, yaitu deretan vektor vektor data). Sementara kita mencari matriks rotasi varimax $\bf P_z$ $\bf P_z$ $\bf Q$ untuk memfasilitasi interpretasi pemuatan, titik-titik data secara pasif menunggu dalam kebulatan & identitas suci mereka (atau "keputihan").

Setelah ditemukan, rotasi dengan itu sama dengan perhitungan cara biasa dari skor komponen utama terstandarisasi melalui kebalikan umum dari matriks pemuatan, - kali ini, dari pemuatan yang diputar , (lihat grafik ). Komponen utama yang diputar-varimax yang dihasilkan, tidak berkorelasi, seperti yang kita inginkan, plus data dipulihkan oleh mereka sebaik sebelum rotasi: . Kami kemudian dapat memberikan mereka kembali skala mereka disimpan (dan sesuai diputar) di - untuk tidak terstandarisasi mereka: . $\bf Q$ $\bf P_z$ $\bf A_r$ $\bf C_z$ $\bf X=P_zA'=C_zA_r'$ $\bf A_r$ $\bf C$

Kita harus sadar, bahwa "komponen utama yang dirotasi-varimax" bukan komponen utama lagi: Saya menggunakan notasi Cz, C, alih-alih Pz, P, untuk menekankannya. Mereka hanya "komponen". Komponen utama itu unik, tetapi komponennya bisa banyak. Rotasi selain varimax akan menghasilkan variabel-variabel baru lainnya yang juga disebut komponen dan juga tidak berkorelasi, di samping variabel . $\bf C$

Juga untuk mengatakan, komponen utama yang diputar varimax (atau diputar secara ortogonal) (sekarang hanya "komponen"), sementara tetap tidak berkorelasi, ortogonal, tidak menyiratkan bahwa pemuatannya juga masih ortogonal. Kolom saling ortogonal (seperti vektor eigen ), tetapi bukan kolom (lihat juga catatan kaki di sini ). $\bf A$ $\bf V$ $\bf A_r$

Dan akhirnya - memutar komponen utama mentah dengan bukanlah tindakan yang bermanfaat. Kami akan mendapatkan beberapa variabel yang berkorelasi dengan makna yang bermasalah. muncul untuk mengoptimalkan (dalam beberapa cara tertentu) konfigurasi pemuatan yang telah menyerap semua skala ke dalamnya . tidak pernah dilatih untuk memutar titik data dengan semua skala tersisa pada mereka. Rotating dengan akan sama dengan memutar vektor eigen dengan (ke $\bf P$ $\bf Q$ $\bf "C"$ $\bf Q$ $\bf Q$ $\bf P$ $\bf Q$ $\bf V$ $\bf Q$ $\bf V_r$ ) dan kemudian menghitung skor komponen mentah sebagai . "Jalur" ini dicatat oleh @amoeba di Postscriptum mereka. $\bf "C"=XV_r$

Tindakan yang diuraikan terakhir ini (tidak berguna untuk sebagian besar) mengingatkan kita bahwa vektor eigen, tidak hanya pemuatan, dapat diputar, secara umum. Sebagai contoh, prosedur varimax dapat diterapkan pada mereka untuk menyederhanakan struktur mereka . Tetapi karena vektor eigen tidak membantu dalam menafsirkan makna komponen seperti beban, rotasi vektor eigen jarang dilakukan.

Jadi, PCA dengan rotasi varimax (atau lainnya) berikutnya adalah

masih PCA
yang dalam perjalanan meninggalkan komponen utama hanya komponen
yang berpotensi lebih (daripada PC) dapat ditafsirkan sebagai "sifat laten"
tetapi tidak dimodelkan secara sistimatis seperti itu (PCA bukanlah analisis faktor yang adil)

Saya tidak merujuk pada analisis faktor dalam jawaban ini. Bagi saya penggunaan kata @ amoeba untuk kata "ruang laten" agak berisiko dalam konteks pertanyaan yang diajukan. Saya akan, bagaimanapun, setuju bahwa rotasi analitik PCA + mungkin disebut "FA- style view on PCA".

ttnphns
sumber

Bagaimana cara menghitung nilai eigen dari komponen yang diputar?

1

@Haga, Komponen yang diputar bukan komponen utama lagi sehingga mereka tidak dapat memiliki nilai eigen. Varian mereka, bagaimanapun, sama dengan jumlah kolom dari pemuatan kuadrat (harap lihat bagian bawah grafik saya - panah untuk skor yang tidak standar).

ttnphns

8

Dalam psych::principal()Anda dapat melakukan berbagai jenis rotasi / transformasi untuk Komponen Anda diekstrak Principal (s) atau '' PC '' menggunakan rotate=argumen, seperti: "none", "varimax"(Default), "quatimax", "promax", "oblimin", "simplimax", dan "cluster". Anda harus memutuskan secara empiris mana yang harus masuk akal dalam kasus Anda, jika perlu, tergantung pada penilaian dan pengetahuan Anda sendiri tentang masalah yang sedang diselidiki. Sebuah pertanyaan kunci yang mungkin memberi Anda petunjuk: mana yang lebih bisa ditafsirkan (lagi jika perlu)?

Dalam bantuan Anda mungkin menemukan yang berikut ini juga membantu:

Penting untuk mengetahui bahwa komponen utama yang diputar bukan komponen utama (sumbu yang terkait dengan dekomposisi nilai eigen) tetapi hanyalah komponen. Untuk menunjukkan hal ini, komponen utama yang tidak diputar diberi label sebagai PCi, sementara PC yang diputar sekarang diberi label sebagai RCi (untuk komponen yang diputar) dan komponen yang diubah secara tidak wajar sebagai TCi (untuk komponen yang diubah). (Terima kasih kepada Ulrike Gromping untuk saran ini.)

gelar doktor
sumber

7

Pemahaman saya adalah bahwa perbedaan antara PCA dan analisis Faktor terutama adalah apakah ada istilah kesalahan. Dengan demikian PCA dapat, dan akan, dengan setia mewakili data sedangkan analisis faktor kurang setia terhadap data yang dilatihnya tetapi berupaya untuk mewakili tren atau komunalitas yang mendasari dalam data. Di bawah pendekatan standar PCA tidak dirotasi, tetapi secara matematis dimungkinkan untuk melakukannya, sehingga orang melakukannya dari waktu ke waktu. Saya setuju dengan para komentator dalam bahwa "makna" dari metode ini agak untuk diperebutkan dan bahwa mungkin bijaksana untuk memastikan fungsi yang Anda gunakan melakukan apa yang Anda inginkan - misalnya, seperti yang Anda perhatikan R memiliki beberapa fungsi yang melakukan jenis PCA yang berbeda dari yang dikenal pengguna SPSS.

russellpierce
sumber

2

Berkat kekacauan dalam definisi keduanya, keduanya secara efektif adalah sinonim. Jangan percaya kata-kata dan melihat jauh ke dermaga untuk menemukan persamaan.

sumber

3

Saya masih berjuang untuk memahami persamaan (ahli biologi ahoy), itulah sebabnya saya beralih ke komunitas di sini, berharap itu akan membantu saya menjelaskan perbedaan dalam istilah awam.

Roman Luštrik

Saya pikir ideologinya adalah bahwa FA mengasumsikan bahwa prosesnya didorong oleh beberapa 'faktor tersembunyi', sedangkan data yang kami miliki terdiri dari beberapa kombinasi di antaranya. Karena itu, masalah FA adalah merekonstruksi faktor-faktor tersembunyi. Dan begitulah PCA - metode yang secara iteratif membangun variabel baru (PC) dengan mencampurkan yang lama seperti serakah menyerap varian data. Bisa dikatakan PC sama dengan faktor FA, dan di sini mereka tidak bisa dibedakan. Tetapi seseorang juga dapat membuat beberapa perubahan pada PCA untuk menjadikannya basis dari 'jenis FA' lainnya, dan masalah pun dimulai.

Jadi pada dasarnya, Anda harus memikirkan apa yang ingin Anda lakukan (bukan kata kunci yang ingin Anda gunakan). Saya tahu itu sulit, terutama ketika memiliki ahli biologi di sekitar (untuk beberapa penggunaan-kata kunci berfungsi baik dalam biologi, jadi mereka hanya menganggap bahwa ini umum untuk disiplin ilmu lain); tetap inilah cara sains harus dilakukan. Daripada menggunakan Google (atau situs ini) untuk menilai algoritma yang baik untuk itu. Terakhir, gunakan dok untuk menemukan fungsi / tombol yang melakukannya dan ketik / klik.

1

Meskipun pertanyaan ini sudah merupakan jawaban yang diterima, saya ingin menambahkan sesuatu ke titik pertanyaan.

"PCA" -jika saya ingat dengan benar - berarti "analisis komponen utama"; jadi selama Anda menganalisis komponen utama, mungkin tanpa rotasi atau dengan rotasi, kita masih dalam analisis "komponen utama" (yang ditemukan oleh dekomposisi matriks awal yang sesuai).

Saya akan merumuskan bahwa setelah "varimax" -proteksi pada dua komponen utama pertama, bahwa kita memiliki "varimax-solusi dari dua pc pertama" (atau sesuatu yang lain), tetapi masih dalam kerangka analisis komponen utama, atau lebih pendek, berada dalam kerangka "pca".

Untuk memperjelas poin saya: Saya tidak merasa bahwa pertanyaan rotasi sederhana memperkenalkan masalah membedakan antara EFA dan CFA (yang disebutkan terakhir / diperkenalkan ke masalah misalnya dalam jawaban Brett)

Gottfried Helms
sumber

Mengapa Anda tiba-tiba menyebutkan CFA dalam kalimat terakhir?

Amuba mengatakan Reinstate Monica

@amoeba: Saya menunjuk ke istilah itu dengan jawaban yang diberikan 23 poin dari _Brett dan merasa pantas untuk mengatakan sesuatu tentang itu. Tapi mungkin lebih baik mengatakan "FA" saja. Saya akan memikirkannya ... (Berpikir tentang hal itu saya samar-samar ingat untuk memiliki "CFA" dilihat sebagai "analisis faktor konfirmatori" daripada "umum ..." dalam studi saya sebelumnya tentang metode itu, mungkin di tahun 80-an. atau 90'ies)

Gottfried Helms

Hanya saja, tiga paragraf pertama dari jawaban Anda adalah tentang PCA vs FA, dan kemudian paragraf terakhir yang sepertinya meringkas yang sebelumnya, tiba-tiba tentang EFA vs CFA.

Amuba kata Reinstate Monica

@amoeba: apakah edit terakhir saya membuat niat / kalimat saya lebih jelas?

Gottfried Helms

1

Saya menemukan ini sebagai yang paling membantu: Abdi & Williams, 2010, analisis komponen utama .

ROTASI

Setelah jumlah komponen telah ditentukan, dan untuk memfasilitasi interpretasi, analisis sering melibatkan rotasi komponen yang dipertahankan [lihat, misalnya, Ref 40 dan 67, untuk rincian lebih lanjut]. Dua jenis utama rotasi digunakan: ortogonal ketika sumbu baru juga ortogonal satu sama lain, dan miring ketika sumbu baru tidak diharuskan menjadi ortogonal. Karena rotasi selalu dilakukan dalam subruang, sumbu baru akan selalu menjelaskan lebih sedikit kelembaman dari komponen asli (yang dihitung menjadi optimal). Namun, bagian dari inersia yang dijelaskan oleh total subruang setelah rotasi adalah sama seperti sebelum rotasi (hanya partisi dari inersia yang telah berubah). Penting juga untuk dicatat bahwa karena rotasi selalu terjadi dalam ruang bagian (yaitu, ruang komponen tertahan), pilihan ruang bagian ini sangat mempengaruhi hasil rotasi. Oleh karena itu, sangat disarankan untuk mencoba beberapa ukuran untuk subruang dari komponen yang dipertahankan untuk menilai kekokohan interpretasi rotasi. Saat melakukan rotasi, istilah memuat hampir selalu merujuk ke elemen matriks Q.

(lihat kertas untuk definisi Q).

Dylan_Larkin
sumber

Apakah PCA diikuti oleh rotasi (seperti varimax) masih PCA?

Jawaban: