Apa perbedaan antara "beban" dan "beban korelasi" dalam PCA dan PLS?

Peringatan: Rmenggunakan istilah "memuat" dengan cara yang membingungkan. Saya jelaskan di bawah ini.

Pertimbangkan dataset dengan variabel (tengah) di kolom dan titik data dalam baris. Melakukan PCA dari dataset ini sama dengan dekomposisi nilai singular . Kolom adalah komponen utama (PC "skor") dan kolom adalah sumbu utama. Matriks kovarian diberikan oleh , jadi sumbu utama adalah vektor eigen dari matriks kovarians. $\mathbf{X}$ $N$ $\mathbf{X} = \mathbf{U} \mathbf{S} \mathbf{V}^\top$ $\mathbf{US}$ $\mathbf{V}$ $\frac{1}{N-1}\mathbf{X}^\top\mathbf{X} = \mathbf{V}\frac{\mathbf{S}^2}{{N-1}}\mathbf{V}^\top$ $\mathbf{V}$

"Memuat" didefinisikan sebagai kolom , yaitu vektor eigen yang diskalakan oleh akar kuadrat dari masing-masing nilai eigen. Mereka berbeda dari vektor eigen! Lihat jawaban saya di sini untuk motivasi. $\mathbf{L}=\mathbf{V}\frac{\mathbf S}{\sqrt{N-1}}$

Dengan menggunakan formalisme ini, kita dapat menghitung matriks kovarian silang antara variabel asli dan PC standar: yaitu diberikan dengan memuat. Matriks korelasi silang antara variabel asli dan PC diberikan oleh ekspresi yang sama dibagi dengan standar deviasi dari variabel asli (menurut definisi korelasi). Jika variabel asli distandarisasi sebelum melakukan PCA (yaitu PCA dilakukan pada matriks korelasi) mereka semua sama dengan . Dalam kasus terakhir ini, matriks korelasi silang kembali diberikan hanya oleh .

\frac{1}{N - 1} X^{⊤} (\sqrt{N - 1} U) = \frac{1}{\sqrt{N - 1}} V S U^{⊤} U = \frac{1}{\sqrt{N - 1}} V S = L,

$\frac{1}{N-1}\mathbf{X}^\top(\sqrt{N-1}\mathbf{U}) = \frac{1}{\sqrt{N-1}}\mathbf{V}\mathbf{S}\mathbf{U}^\top\mathbf{U} = \frac{1}{\sqrt{N-1}}\mathbf{V}\mathbf{S}=\mathbf{L},$

1

$1$

L

$\mathbf{L}$

Untuk menjernihkan kebingungan terminologis: apa yang disebut paket R "pembebanan" adalah sumbu utama, dan apa yang disebut "pembebanan korelasi" adalah (untuk PCA yang dilakukan pada matriks korelasi) pada pembebanan sebenarnya. Seperti yang Anda perhatikan sendiri, perbedaannya hanya pada penskalaan. Apa yang lebih baik untuk direncanakan, tergantung pada apa yang ingin Anda lihat. Pertimbangkan contoh sederhana berikut ini:

Biplots

Subplot kiri menunjukkan dataset 2D standar (setiap variabel memiliki varian unit), membentang di sepanjang diagonal utama. Subplot tengah adalah biplot : ini adalah plot pencar PC1 vs PC2 (dalam hal ini hanya dataset yang diputar 45 derajat) dengan deretan diplot di atas sebagai vektor. Perhatikan bahwa vektor dan terpisah 90 derajat; mereka memberi tahu Anda bagaimana sumbu asli berorientasi. Subplot kanan adalah biplot yang sama, tetapi sekarang vektor menunjukkan baris . Perhatikan bahwa sekarang vektor dan memiliki sudut tajam di antara mereka; mereka memberi tahu Anda berapa banyak variabel asli yang berkorelasi dengan PC, dan keduanya dan $\mathbf{V}$ $x$ $y$ $\mathbf{L}$ $x$ $y$ $x$ $y$ berkorelasi jauh lebih kuat dengan PC1 dibandingkan dengan PC2. Saya kira kebanyakan orang lebih suka melihat jenis biplot yang tepat.

Perhatikan bahwa dalam kedua kasus, kedua vektor dan memiliki panjang satuan. Ini terjadi hanya karena dataset adalah 2D untuk memulai; dalam kasus ketika ada lebih banyak variabel, vektor individu dapat memiliki panjang kurang dari , tetapi mereka tidak pernah bisa mencapai di luar lingkaran unit. Bukti fakta ini saya tinggalkan sebagai latihan. $x$ $y$ $1$

Mari kita lihat lagi dataset mtcars . Berikut adalah biplot dari PCA yang dilakukan pada matriks korelasi:

mtcars pca biplot

Garis hitam diplot menggunakan , garis merah diplot menggunakan . $\mathbf{V}$ $\mathbf{L}$

Dan ini adalah biplot dari PCA yang dilakukan pada matriks kovarians:

mtcars pca biplot

Di sini saya menskalakan semua vektor dan satuan lingkaran dengan , karena jika tidak maka tidak akan terlihat (ini adalah trik yang biasa digunakan). Sekali lagi, garis hitam menunjukkan baris , dan garis merah menunjukkan korelasi antara variabel dan PC (yang tidak lagi diberikan oleh , lihat di atas). Perhatikan bahwa hanya dua garis hitam yang terlihat; ini karena dua variabel memiliki varians yang sangat tinggi dan mendominasi dataset mtcars . Di sisi lain, semua garis merah bisa dilihat. Kedua representasi menyampaikan beberapa informasi yang bermanfaat. $100$ $\mathbf{V}$ $\mathbf{L}$

PS Ada banyak varian berbeda dari PCA biplots, lihat jawaban saya di sini untuk beberapa penjelasan lebih lanjut dan tinjauan umum: Memposisikan panah pada biplot PCA . Biplot tercantik yang pernah diposting di CrossValidated dapat ditemukan di sini .

amuba kata Reinstate Monica
sumber

Meskipun ini adalah jawaban yang sangat bagus (+1), ia memiliki satu kelemahan didaktis, yaitu pada awalnya menempatkan variabel dalam baris X, bukan di kolom X seperti yang biasanya masuk dalam dataset / contoh statistik. Karena itu transpos, vektor U menjadi di jawaban menjadi tentang variabel dan V tentang kasus. Kebanyakan orang mengetahui PCA terbiasa dengan tata letak yang berlawanan; jadi itu menghalangi persepsi, sedikit.

ttnphns

Saya mungkin menyarankan untuk menekankan secara verbal "moral" perbedaan antara "sumbu biplot" dan "memuat biplot" pada pemindaian. Pada awalnya, variabilitas (= skala, = magnidute, = inersia, = massa) tidak disajikan: ia disimpan dalam nilai eigen. Dalam yang kedua, diserahkan sepenuhnya ke vektor eigen yang mewakili variabel; berdasarkan "menghidupkan kembali" variabel menjadi awan data yang bermakna dari dua titik, atau vektor, dengan panjang spesifik dari asal dan sudut tertentu. Ini adalah bagaimana kita "tiba-tiba" menemukan diri kita dalam ruang subjek .

ttnphns

Terima kasih @ttnphns, keduanya poin bagus. Mengenai baris / kolom : sebenarnya, saya lebih suka tata letak yang saya gunakan. Titik data tunggal biasanya ditulis sebagai vektor kolom . Matriks bekerja di atasnya akan ditulis sebagai . Jika sekarang adalah kumpulan vektor kolom yang ditumpuk, maka saya dapat menulis , yang nyaman. Jika, sebagai gantinya, memiliki sampel dalam baris, seperti yang Anda sarankan, maka saya perlu menulis , yang terlihat aneh. Tetapi saya akui bahwa banyak buku ajar menggunakan konvensi ini (saya tidak yakin mengapa).

X

$\mathbf X$

x

$\mathbf x$

U

$\mathbf U$

U x

$\mathbf U \mathbf x$

X

$\mathbf X$

U X

$\mathbf U\mathbf X$

X

$\mathbf X$

X U^{⊤}

$\mathbf X \mathbf U^\top$

amoeba mengatakan Reinstate Monica

Ini, tentu saja, masalah selera. Namun, perlu diingat bahwa sebagian besar program statistik menunjukkan spreadsheet data sebagai cases X variables. Secara tradisi, aljabar linier pada sebagian besar teks analisis statistik menjadikan case vektor baris. Mungkin dalam pembelajaran mesin itu berbeda?

ttnphns

@ pengguna_anon Tidak, jawaban ini mempertimbangkan PCA standar, tanpa rotasi faktor apa pun.

Amuba mengatakan Reinstate Monica

Apa perbedaan antara "beban" dan "beban korelasi" dalam PCA dan PLS?

Jawaban: