Apa yang memaksimalkan faktor

12

Dalam analisis komponen utama, komponen utama adalah arah orthogonal dengan varians maksimum. Dengan kata lain, komponen utama pertama dipilih untuk menjadi arah varians maksimum, komponen utama kedua dipilih untuk menjadi arah ortogonal ke yang pertama dengan varian maksimum, dan seterusnya.kkk

Apakah ada interpretasi yang serupa untuk Analisis Faktor? Sebagai contoh, saya berpikir bahwa faktor pertama adalah faktor yang paling menjelaskan komponen off-diagonal dari matriks korelasi asli (dalam arti, katakanlah, kuadrat kesalahan antara matriks korelasi asli dan matriks korelasi yang ditentukan oleh faktor). Apakah ini benar (atau adakah yang serupa yang bisa kita katakan)?k

raegtin
sumber
Sementara saya setuju dengan hampir semua yang ditulis @NRH dalam jawaban mereka (+1), jawaban singkat untuk pertanyaan terakhir Anda adalah bahwa ya, itu memang benar . Perhatikan bahwa dalam faktor FA juga dapat dipilih untuk menjadi ortogonal, seperti pada PCA. Perbedaannya hanya dalam mereproduksi seluruh matriks korelasi (PCA) vs mereproduksi hanya bagian diagonal (FA). Untuk diskusi yang lebih panjang lihat jawaban saya dalam Ketentuan untuk kemiripan PCA dan Analisis Faktor dan Apakah ada alasan bagus untuk menggunakan PCA daripada EFA?
Amoeba berkata Reinstate Monica
Saya tidak yakin apakah FA benar-benar "meminimalkan kovarian parsial (jumlah-dari) kuadrat", karena ada kriteria rotasi / ekstraksi yang disebut "MinRes" yang alasannya persis seperti ini. Lalu mengapa memberinya nama yang khas? Mungkin standar-rutinitas untuk menemukan solusi-FA secara matematis mendapatkan hasil yang identik jika jumlah faktor k mereproduksi kovarian dengan sempurna-tetapi karena k adalah perkiraan, mungkin saja dalam kasus ketidaksempurnaan / underestimasi solusi FA tidak identik dengan solusi MinRes. Yah, saya katakan: mungkin - saya ingin melihat pernyataan eksplisit.
Gottfried Helms

Jawaban:

7

PCA terutama merupakan teknik reduksi data di mana tujuannya adalah untuk mendapatkan proyeksi data ke ruang dimensi yang lebih rendah. Dua tujuan yang setara adalah untuk memaksimalkan perbedaan secara iteratif atau untuk meminimalkan kesalahan rekonstruksi. Ini sebenarnya dikerjakan dalam beberapa perincian dalam jawaban untuk pertanyaan sebelumnya ini .

Sebaliknya, analisis faktor terutama merupakan model generatif dari -data dimensi vektor X yang mengatakan bahwa X = A S + ϵ di mana S adalah vektor dimensi q faktor laten, A adalah p × k dengan k < p dan ϵ adalah vektor kesalahan tidak berkorelasi. The A matriks adalah matriks faktor loadings . Ini menghasilkan parametrization khusus dari matriks kovarians sebagai Σ = A A T + DpX

X=AS+ϵ
SqAp×kk<pϵA
Σ=AAT+D
Masalah dengan model ini adalah bahwa model ini terlalu ter-parametrik. Model yang sama diperoleh jika diganti dengan A R untuk setiap k × k matriks ortogonal R , yang berarti bahwa faktor sendiri tidak unik. Berbagai saran ada untuk menyelesaikan masalah ini, tetapi tidak ada solusi tunggal yang memberi Anda faktor dengan jenis penafsiran yang Anda minta. Salah satu pilihan populer adalah rotasi varimax . Namun, kriteria yang digunakan hanya menentukan rotasi. Ruang kolom yang direntang oleh A tidak berubah, dan karena ini adalah bagian dari parametrization, ditentukan oleh metode apa pun yang digunakan untuk memperkirakan ΣAARk×kRAΣ - Dengan kemungkinan maksimum dalam model Gaussian, katakanlah.

Oleh karena itu, untuk menjawab pertanyaan, faktor yang dipilih tidak diberikan secara otomatis dari menggunakan model analisis faktor, sehingga tidak ada interpretasi tunggal dari faktor pertama. Anda harus menentukan metode yang digunakan untuk memperkirakan (ruang kolom) A dan metode yang digunakan untuk memilih rotasi. Jika D = σ 2 I (semua kesalahan memiliki varians yang sama) solusi MLE untuk ruang kolom A adalah ruang yang direntang oleh vektor komponen utama q terkemuka , yang dapat ditemukan oleh dekomposisi nilai singular. Tentu saja dimungkinkan untuk memilih untuk tidak memutar dan melaporkan vektor komponen utama ini sebagai faktor. kAD=σ2IAq

kkk

NRH
sumber
1
Yap, saya mengerti bahwa tidak ada pilihan unik dari faktor k (karena kita dapat memutarnya dan mendapatkan model yang sama). Tetapi apakah ada pilihan faktor k yang dipilih oleh analisis faktor yang melakukan semacam "penjelasan korelasi maksimal"?
raegtin
1
@raegtin, saya telah mengedit jawaban untuk menjelaskan sudut pandang saya, bahwa ini adalah model dari matriks kovarians. Pilihan faktor apa pun yang diperoleh dengan rotasi, seperti yang saya lihat, sama-sama baik atau buruk dalam menjelaskan kovarian dalam data karena mereka menghasilkan matriks kovarian yang sama.
NRH
1
Terima kasih atas pembaruannya, ini adalah penjelasan yang bagus untuk FA! Jadi ketika Anda mengatakan "tujuan dengan model ini adalah untuk menjelaskan kovarians dengan sebaik-baiknya", apakah maksud Anda faktor k benar-benar memaksimalkan jumlah kovarians yang dijelaskan?
raegtin
1
@raegtin, ya, saya melihat model sebagai model dari matriks kovarians, dan ketika Anda memperkirakan model, wajar untuk mengatakan bahwa Anda memaksimalkan jumlah kovarians yang dijelaskan.
NRH
@raegtin dan NRH (+1 btw): Hanya untuk memperjelas. Di atas dua komentar benar jika dengan "kovarians" kita memahami "bagian off-diagonal dari matriks kovarians".
Amoeba berkata Reinstate Monica
3

@RAEGTIN, saya yakin Anda berpikir benar. Setelah ekstraksi dan rotasi sebelumnya, masing-masing faktor berturut-turut bertanggung jawab atas semakin berkurangnya kovarisasi / korelasi, seperti halnya masing-masing komponen berturut-turut menyumbang lebih sedikit dan lebih sedikit perbedaan: dalam kedua kasus, kolom dari matriks pemuatan A mengikuti urutan jatuhnya jumlah elemen kuadrat (memuat) di dalamnya. Memuat adalah korelasi dengan faktor dan variabel; oleh karena itu orang dapat mengatakan bahwa faktor 1 menjelaskan bagian terbesar dari "keseluruhan" kuadrat r dalam matriks R , faktor 2 adalah yang kedua di sini, dll. Perbedaan antara FA dan PCA, meskipun, dalam memprediksi korelasi dengan pemuatan adalah sebagai berikut: FA "dikalibrasi" untuk mengembalikan Rcukup halus hanya dengan faktor m diekstraksi (faktor m <variabel p), sementara PCA kasar dalam mengembalikannya dengan komponen m, - perlu semua komponen p untuk mengembalikan R tanpa kesalahan.

PS Hanya untuk menambahkan. Dalam FA, nilai pemuatan "terdiri" dari komunalitas bersih (bagian dari varians yang bertanggung jawab untuk berkorelasi) sementara dalam PCA pemuatan adalah campuran dari komunalitas dan keunikan variabel dan karenanya mengambil variabilitas.

ttnphns
sumber