Memuat vs vektor eigen di PCA: kapan harus menggunakan satu atau yang lain?

67

Dalam analisis komponen utama (PCA), kami mendapatkan vektor eigen (vektor satuan) dan nilai eigen. Sekarang, mari kita mendefinisikan pemuatan sebagai

Loadings=EigenvectorsEigenvalues.

Saya tahu bahwa vektor eigen hanya arah dan pemuatan (seperti yang didefinisikan di atas) juga termasuk varian di sepanjang arah ini. Tetapi untuk pemahaman saya yang lebih baik, saya ingin tahu di mana saya harus menggunakan memuat bukan vektor eigen? Sebuah contoh akan sempurna!

Saya biasanya hanya melihat orang menggunakan vektor eigen tetapi sesekali mereka menggunakan pemuatan (seperti yang didefinisikan di atas) dan kemudian saya merasa bahwa saya tidak benar-benar memahami perbedaannya.

pengguna2696565
sumber

Jawaban:

66

Di PCA, Anda membagi matriks kovarians (atau korelasi) menjadi bagian skala (nilai eigen) dan bagian arah (vektor eigen). Anda kemudian dapat memberkati eigen dengan skala: beban . Jadi, pembebanan dengan demikian menjadi sebanding dengan besarnya dengan kovariansi / korelasi yang diamati antara variabel, - karena apa yang telah ditarik dari kovariat variabel sekarang kembali kembali - dalam bentuk kovariat antara variabel dan komponen utama. Sebenarnya, pembebanan adalah kovariansi / korelasi antara variabel asli dan komponen skala unit . Jawaban ini menunjukkan secara geometris apa yang memuat dan apa koefisien yang mengaitkan komponen dengan variabel dalam PCA atau analisis faktor.

Pemuatan :

  1. Membantu Anda menafsirkan komponen atau faktor utama; Karena mereka adalah bobot kombinasi linear (koefisien) di mana komponen atau faktor skala unit menentukan atau "memuat" suatu variabel .

    (Vektor vektor hanya koefisien transformasi atau proyeksi ortogonal , itu tanpa "beban" dalam nilainya. "Beban" adalah (informasi jumlah) varians, besarnya. PC diekstraksi untuk menjelaskan varians variabel. Nilai eigen adalah varians dari (= dijelaskan oleh) PC. Ketika kita mengalikan vektor eigen dengan sq.root dari nilai eiven kita "memuat" koefisien telanjang dengan jumlah varians. Atas dasar itu kita membuat koefisien untuk menjadi ukuran asosiasi , variabilitas.)

  2. Pemuatan kadang-kadang "diputar" (misalnya varimax) sesudahnya untuk memfasilitasi interpretabilitas ( lihat juga );

  3. Ini adalah pemuatan yang "mengembalikan" matriks kovarians / korelasi asli (lihat juga utas ini yang membahas nuansa PCA dan FA dalam hal itu);

  4. Sementara di PCA Anda dapat menghitung nilai komponen baik dari vektor eigen dan pemuatan, dalam analisis faktor Anda menghitung skor faktor dari pemuatan .

  5. Dan, di atas semua itu, memuat matriks informatif: jumlah vertikal kuadratnya adalah nilai eigen, varians komponen, dan jumlah kuadrat horizontalnya adalah bagian dari varians variabel yang "dijelaskan" oleh komponen.

  6. Pemuatan berskala ulang atau terstandar adalah pemuatan yang dibagi dengan variabel st. deviasi; itu adalah korelasinya. (Jika PCA Anda adalah PCA berbasis korelasi, pemuatan sama dengan yang dihitung ulang, karena PCA berbasis korelasi adalah PCA pada variabel standar.) Pemuatan yang dikuadratkan ulang kuadrat memiliki arti kontribusi pr. komponen menjadi variabel; jika tinggi (mendekati 1) variabel didefinisikan dengan baik oleh komponen itu saja.

Contoh perhitungan yang dilakukan dalam PCA dan FA untuk Anda lihat .

Vektor eigen adalah pemuatan skala-unit; dan mereka adalah koefisien (cosinus) dari transformasi ortogonal (rotasi) variabel menjadi komponen utama atau belakang. Oleh karena itu mudah untuk menghitung nilai komponen (tidak terstandarisasi) dengannya. Selain itu penggunaannya terbatas. Nilai vektor eigen kuadrat memiliki arti kontribusi variabel ke dalam suatu pr. komponen; jika tinggi (hampir 1) komponen didefinisikan dengan baik oleh variabel itu saja.

Meskipun vektor dan pemuatan eigen hanyalah dua cara berbeda untuk menormalkan koordinat titik yang sama yang mewakili kolom (variabel) data pada biplot , bukan ide yang baik untuk mencampur kedua istilah tersebut. Jawaban ini menjelaskan alasannya. Lihat juga .

ttnphns
sumber
3
Mungkinkah ada konvensi yang berbeda di berbagai bidang di sini? Saya tersandung pada pertanyaan ini, karena di bidang saya (kemometrik) cara yang biasa adalah dengan memuat ortonormal. Dengan kata lain, skala / magnitude / masuk ke dalam skor, bukan ke dalam pemuatan. Memuat sama dengan invers = transpose dari matriks vektor eigen. Saya mengeceknya dengan "Buku Pegangan Chemometrik dan Qualimetrik" dan "Chemometrik Komprehensif" yang saya anggap sebagai 2 karya referensi paling penting untuk chemometrics. eigenvalues
cbeleites
1
Catatan: Dalam chemometrics, menghitung skor dari data asli sangat penting, karena banyak model prediktif menggunakan rotasi PCA (!) Untuk pra-pemrosesan, sehingga penggunaan pembebanan yang terbatas adalah IMHO penggunaan utama kami untuk PCA.
cbeleites
2
@cbeleites, Tidak hanya mungkin bahwa konvensi terminologis PCA / FA dapat berbeda dalam bidang yang berbeda (atau dalam perangkat lunak atau buku yang berbeda) - Saya menyatakan mereka berbeda. Dalam psikologi dan perilaku manusia, "pemuatan" biasanya saya beri label dengan nama (pemuatan sangat penting dalam bidang-bidang tersebut karena interpretasi dari laten sedang tertunda, sementara skor dapat diperkecil, distandarisasi, dan tidak ada yang peduli). Di sisi lain, banyak Rpengguna di situs ini telah menyebut vektor eigen "memuat" yang mungkin berasal dari dokumentasi fungsi.
ttnphns
(lanjutan) Terburuk dari semua itu adalah kata "memuat" digunakan dalam teknik lain (LDA, korelasi kanonik, dan sebagainya) tidak persis dalam arti yang sama seperti di PCA. Jadi, kata itu sendiri dikompromikan. Saya setuju dengan @amoeba yang mengandaikannya untuk dihapus sama sekali dan digantikan oleh istilah yang tepat secara statistik seperti "korelasi" atau "koefisien". Di sisi lain, "vektor eigen" tampaknya terbatas pada dekomposisi svd / eigen, dan beberapa metode redup. reduksi tidak melakukan itu sama sekali atau dalam bentuk klasiknya.
ttnphns
1
Anda harus mencampuradukkan. Ketika Anda menghitung skor PC dengan benar dengan bantuan pemuatan, Anda berakhir hanya dengan komponen standar. Anda tidak menghitung skor ini dengan rumus yang sama seperti yang Anda lakukan dengan vektor eigen; alih-alih, Anda harus menggunakan rumus yang dijelaskan dalam tautan # 4 saya.
ttnphns
3

Tampaknya ada banyak kebingungan tentang pemuatan, koefisien dan vektor eigen. Kata memuat berasal dari Analisis Faktor dan mengacu pada koefisien regresi dari matriks data ke faktor-faktor. Mereka bukan koefisien yang mendefinisikan faktor. Lihat misalnya Mardia, Bibby dan Kent atau buku teks statistik multivariat lainnya.

Dalam beberapa tahun terakhir kata memuat telah digunakan untuk menunjukkan koefisien PC. Di sini tampaknya digunakan untuk menunjukkan koefisien yang dikalikan dengan sqrt dari nilai eigen dari matriks. Ini bukan jumlah yang biasa digunakan dalam PCA. Komponen utama didefinisikan sebagai jumlah variabel yang ditimbang dengan koefisien norma satuan. Dengan cara ini PC memiliki norma yang sama dengan nilai eigen yang sesuai, yang pada gilirannya sama dengan varians yang dijelaskan oleh komponen.

Dalam Analisis Faktor inilah faktor-faktor diharuskan memiliki norma satuan. Tetapi FA dan PCA sangat berbeda. Memutar koefisien PC sangat jarang dilakukan karena merusak optimalitas komponen.

Dalam FA faktor-faktor tersebut tidak didefinisikan secara unik dan dapat diperkirakan dengan berbagai cara. Kuantitas penting adalah pembebanan (yang benar) dan komunalitas yang digunakan untuk mempelajari struktur matriks kovarian. PCA atau PLS harus digunakan untuk memperkirakan komponen.

Marco Stamazza
sumber
2
Jawaban ini, benar dalam aspek-aspek tertentu (+1), mengabaikan bahwa FA dan PCA dapat dilihat dan dapat dibandingkan (meskipun berbeda) sebagai prediksi variabel manifes oleh faktor / komponen (unit yang diambil terakhir diskalakan). Memuat adalah koefisien prediksi tersebut. Jadi pemuatan digunakan dan merupakan istilah yang valid, artinya hal yang sama, baik dalam bidang FA maupun bidang PCA.
ttnphns
3
Juga, sangat disayangkan bahwa beberapa sumber (khususnya, dokumentasi R) secara sembarangan menyebut koefisien eigen "pemuatan" - tidak mengandung muatan di dalamnya.
ttnphns
Hanya saja FA dan PCA memperkirakan model yang berbeda. Dalam FA kesalahannya adalah ortogonal di PCA. Saya tidak melihat banyak gunanya membandingkan hasilnya, kecuali ada yang memancing model. Memuat adalah kolom dari matriks Lyang digunakan untuk menulis matriks kovarians sebagai S = LL' + Cmana Cadalah matriks diagonal. mereka tidak ada hubungannya dengan koefisien PC.
Marco Stamazza
they have nothing to do with the PCs' coefficientsKami menghitung pemuatan di PCA seperti kami melakukannya di FA. Model-modelnya berbeda tetapi arti pemuatannya serupa dalam kedua metode.
ttnphns
0
In Factor Analysis (using PCA for extraction), we get orthonormal eigen vectors (unit vectors) and corresponding eigenvalues. Now, loadings are defined as 

Muatan = Vektor Eigen Normal ⋅ Akar kuadrat dari (Nilai Eigen Absolut) Di sini vektor eigen ortonormal (yaitu, istilah vektor Eigen ortonormal) memberikan arah dan istilah akar kuadrat dari (nilai Eigen Absolut) memberikan nilai.

Biasanya orang mengatakan bahwa tanda-tanda muatan tidak penting tetapi besarnya penting. Tetapi jika kita membalikkan arah satu vektor eigen (menjaga tanda vektor eigen lainnya seperti adanya), maka skor faktor akan berubah. Karenanya analisis lebih lanjut akan dipengaruhi secara signifikan.

Saya tidak bisa mendapatkan solusi yang memuaskan untuk ambiguitas ini sejauh ini.

pengguna173611
sumber
0

Tampaknya ada beberapa kebingungan tentang masalah ini, jadi saya akan memberikan beberapa pengamatan dan petunjuk ke mana jawaban yang sangat baik dapat ditemukan dalam literatur.

Pertama, PCA dan Analisis Faktor (FA) yang terkait. Secara umum, komponen utama adalah ortogonal menurut definisi sedangkan faktor - entitas analog dalam FA - tidak. Sederhananya, komponen utama span ruang faktor dalam cara yang sewenang-wenang tetapi tidak selalu berguna karena berasal dari analisis eigen murni data. Faktor di sisi lain mewakili entitas dunia nyata yang hanya ortogonal (yaitu tidak berkorelasi atau independen) secara kebetulan.

Katakanlah kita mengambil s pengamatan dari masing-masing l pelajaran. Ini dapat diatur ke dalam matriks data yang D memiliki s baris dan l kolom. D dapat didekomposisi menjadi matriks skor S dan matriks pemuatan L sedemikian rupa sehingga D = SL . S akan memiliki s baris, dan L akan memiliki l kolom, dimensi kedua dari masing-masing menjadi jumlah faktor n . Tujuan dari analisis faktor adalah untuk menguraikan Dsedemikian rupa untuk mengungkapkan skor dan faktor yang mendasarinya. Loadings di L memberitahu kami proporsi masing-masing skor yang membentuk pengamatan di D .

Dalam PCA, L memiliki vektor eigen dari korelasi atau matriks kovarians D sebagai kolomnya. Ini secara konvensional diatur dalam urutan nilai eigen yang sesuai. Nilai n - yaitu jumlah komponen utama yang penting untuk dipertahankan dalam analisis, dan karenanya jumlah baris L - biasanya ditentukan melalui penggunaan plot scree dari nilai eigen atau salah satu dari banyak metode lain yang dapat ditemukan di literatur. Kolom S di PCA membentuk n komponen utama abstrak sendiri. Nilai n adalah dimensi yang mendasari set data.

Objek analisis faktor adalah untuk mengubah komponen abstrak ke dalam faktor-faktor yang bermakna melalui penggunaan transformasi matriks T sehingga D = STT -1 L . ( ST ) adalah matriks skor yang ditransformasikan, dan ( T -1 L ) adalah matriks pembebanan yang ditransformasikan.

Penjelasan di atas kira-kira mengikuti notasi Edmund R. Malinowski dari Analisis Faktornya yang sangat baik dalam Kimia . Saya sangat merekomendasikan bab pembuka sebagai pengantar untuk topik ini.

Matt Wenham
sumber
Jawaban ini tampaknya memiliki beberapa masalah. Pertama, periksa rumus Anda, tolong, itu tidak benar. Kedua, Anda mencoba mendiskusikan perbedaan antara FA dan PCA. Kami memiliki utas panjang yang terpisah pada CV untuk itu, sementara utas saat ini adalah tentang memuat vs vektor eigen, jadi jawabannya salah tempat. Ketiga, gambar FA Anda terdistorsi, terutama dalam frasa seperti "tujuan FA adalah untuk menguraikan D" atau "objek FA adalah mengubah komponen abstrak menjadi faktor yang bermakna".
ttnphns
Saya menganggap materi yang saya posting relevan dengan diskusi di utas ini, dan ia menawarkan satu penjelasan tentang hubungan antara pemuatan dan vektor eigen.
Matt Wenham
Penelitian saya tentang masalah ini dirangkum dalam makalah ini: onlinelibrary.wiley.com/doi/10.1002/sia.740231303/full
Matt Wenham
Oke, mungkin akun Anda masih khusus dan valid - Saya tidak bisa mengatakan tanpa membaca sumber yang Anda tawarkan. Namun, saya berkomentar bahwa "hubungan" antara pemuatan dan vektor eigen dalam PCA semuanya ada dalam formula yang ditempatkan dalam pertanyaan; jadi hampir tidak ada apa pun untuk "dijelaskan" (dijelaskan harus ada kegunaan yang berbeda dari mereka). Hal lain yang perlu diperhatikan adalah bahwa Q terutama tentang PCA, bukan FA. Dan, pada akhirnya, tidak semua metode FA berurusan dengan vektor eigen sama sekali, sementara itu harus berurusan dengan pemuatan.
ttnphns
Maaf, saya tidak berpikir ada versi yang tersedia untuk umum dari makalah saya, meskipun Anda bisa mendapatkan akses melalui Deepdyve.com dengan uji coba dua minggu. Bab pertama buku Malinowski tersedia dari tautan di atas. Ini mencakup dasar-dasar tanpa menyebutkan analisis eigen. Saya harus mengakui bahwa saya tidak menyadari bahwa analisis faktor dapat dilakukan tanpa analisis eigen, sebagaimana varian yang saya gunakan - analisis faktor target - tidak.
Matt Wenham
-1

Saya agak bingung dengan nama-nama itu, dan saya mencari di dalam buku yang berjudul "Metode Statistik dalam Ilmu Atmosfer", dan itu memberi saya ringkasan tentang berbagai terminologi PCA, berikut adalah tangkapan layar dalam buku ini, semoga screenshot ini dapat membantu.

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

D.Zhang
sumber