Dalam kondisi apa PCA dan FA menghasilkan hasil yang serupa?

Dalam kondisi apa analisis komponen utama (PCA) dan analisis faktor (FA) diharapkan menghasilkan hasil yang serupa?

pca factor-analysis statistik
sumber

Biarkan menjadi pemuatan (bukan vektor eigen) dari komponen utama terakhir - komponen yang Anda masukkan dalam PCA ( adalah jumlah variabel dan jumlah komponen atau faktor yang Anda putuskan untuk diekstraksi). Jika hampir diagonal, maka hasil PCA Anda mirip dengan hasil FA. Beberapa pertanyaan untuk Anda baca: stats.stackexchange.com/q/123063/3277 , stats.stackexchange.com/q/94048/3277 .

L

$\bf L$ p-mpm

L L^{'}

$\bf LL'$

ttnphns

Dengan kata lain: ketika PCA terjadi untuk mengisolasi noise variabel-spesifik dari sinyal (faktor-faktor umum) sesukses analisis faktor secara teratur melakukannya. PCA, tidak seperti FA, tidak dimaksudkan untuk melakukan pekerjaan ini, namun dalam beberapa kondisi sering tampak melakukannya. Beberapa kondisi ini: 1) pbesar; 2) noise kecil untuk semua variabel; 3) noise hampir sama untuk semua variabel.

ttnphns

Ini adalah pertanyaan yang sangat bagus, tapi sayangnya (atau mungkin untungnya?) Saya baru saja menulis jawaban yang sangat panjang di utas terkait , menjawab pertanyaan Anda hampir persis. Saya dengan hormat meminta Anda untuk melihat ke sana dan melihat apakah itu menjawab pertanyaan Anda.

Secara singkat, jika kita hanya fokus pada pemuatan PCA dan FA , maka perbedaannya adalah PCA menemukan untuk merekonstruksi matriks kovarians sampel (atau korelasi) sampel sedekat mungkin: sedangkan FA menemukan untuk merekonstruksi bagian off-diagonal dari matriks kovarians (atau korelasi):Maksud saya, FA tidak peduli nilai apa yang ada di diagonal, hanya peduli tentang bagian off-diagonal. $\mathbf W$ $\mathbf W$ $\mathbf C$

C \approx W W^{⊤},

$\mathbf C \approx \mathbf W \mathbf W^\top,$

W

$\mathbf W$

o f f d i a g {C} \approx W W^{⊤} .

$\mathrm{offdiag}\{\mathbf C\} \approx \mathbf W \mathbf W^\top.$

W W^{⊤}

$\mathbf W \mathbf W^\top$

Dengan mengingat hal ini, jawaban atas pertanyaan Anda menjadi mudah dilihat. Jika jumlah variabel (ukuran ) besar, maka bagian off-diagonal dari hampir seluruh matriks (diagonal memiliki ukuran dan seluruh ukuran matriks , sehingga kontribusi dari diagonal hanya ), sehingga kita dapat berharap bahwa PCA mendekati FA dengan baik. Jika nilai-nilai diagonal agak kecil, sekali lagi mereka tidak memainkan banyak peran untuk PCA, dan PCA akhirnya menjadi dekat dengan FA, persis seperti yang dikatakan @ttnphns di atas. $n$ $\mathbf C$ $\mathbf C$ $n$ $n^2$ $1/n \to 0$

Jika, di sisi lain, kecil atau didominasi kuat oleh diagonal (khususnya jika memiliki nilai yang sangat berbeda pada diagonal), maka PCA harus bias terhadap mereproduksi diagonal juga, dan jadi akan menjadi sangat berbeda dari FA. Satu contoh diberikan di utas ini: $\mathbf C$ $\mathbf W$

Mengapa PCA dan Analisis Faktor mengembalikan hasil yang berbeda dalam contoh ini?

amuba
sumber

Dalam jawaban Anda, Anda menyatakan bahwa `` meminimalkan '' menghasilkan pemuatan analisis faktor. (Saya menafsirkan sebagai norma Frobenius kuadrat.) Di mana saya dapat menemukan bukti untuk pernyataan ini? Untuk PCA, ini mengikuti dari teorema Eckart-Young, tapi saya tidak bisa melihat bagaimana ini berlaku untuk FA.

| | C - W W^{T} - Ψ | |^{2}

$||C−WW^T−\Psi||^2$

| | ∙ | |^{2}

$||\bullet||^2$

statistik

Terkait, ttnphns mengklaim bahwa meminimalkan setara dengan meminimalkan . Bagaimana ini bisa ditampilkan?

| | X - X_{k} | |^{2}

$||X−X_k||^2$

| | X^{T} X - X_{k}^{T} X_{k} | |^{2}

$||X^TX−X_k^TX_k||^2$

statistik

Untuk pertanyaan pertama Anda. Ya, itu adalah norma Frobenius. Tidak seperti PCA, FA lebih merupakan kerangka daripada satu metode yang didefinisikan secara tepat; ada berbagai "metode ekstraksi faktor", menghasilkan hasil yang tidak identik. Jadi tentu saja tidak ada bukti untuk semua versi FA. Namun, salah satu metode tertua / paling sederhana / luas adalah menemukan dan secara langsung dengan meminimalkan fungsi biaya ini (menginisialisasi secara acak, menyelesaikan melalui PCA, memperbarui , dll hingga konvergensi). Ini disebut metode "faktor utama berulang", atau pertanda seperti itu. Maka tidak ada lagi yang harus dibuktikan :)

W

$W$

Ψ

$\Psi$

Ψ

$\Psi$

W

$W$

Ψ

$\Psi$

amoeba

Untuk pertanyaan kedua Anda. Tidak yakin apakah ini benar secara umum (mungkin itu, mungkin tidak), tetapi saya tidak pernah menggunakannya dalam jawaban yang ditautkan. Lihatlah "Pembaruan 2" saya dengan saksama, pernyataan ini tidak diperlukan.

amoeba

Dalam kondisi apa PCA dan FA menghasilkan hasil yang serupa?

Jawaban: