PCA dan analisis Korespondensi dalam hubungannya dengan Biplot

SVD

$\bf X$ $r \times c$ $\bf X = U_{r\times r}S_{r\times c}V_{c\times c}'$ $m$ $[m \le\min(r,c)]$ $\bf X_{(m)}$ $m$ $\bf X$ $\bf X_{(m)} = U_{r\times m}S_{m\times m}V_{c\times m}'$ $\bf U=U_{r\times m}$ , , . $\bf V=V_{c\times m}$ $\bf S=S_{m\times m}$

Nilai singular dan kuadratnya, nilai eigen, mewakili skala , juga disebut inersia , dari data. Vektor eigen kiri adalah koordinat baris data ke sumbu utama ; sementara vektor eigen kanan adalah koordinat kolom data ke sumbu laten yang sama. Seluruh skala (inersia) disimpan dalam dan dengan demikian koordinat dan adalah unit-dinormalisasi (kolom SS = 1). $\bf S$ $\bf U$ $m$ $\bf V$ $\bf S$ $\bf U$ $\bf V$

Analisis Komponen Utama oleh SVD

Dalam PCA, itu disepakati untuk mempertimbangkan baris dari sebagai pengamatan acak (yang bisa datang atau pergi), tapi untuk mempertimbangkan kolom dari sebagai jumlah tetap dimensi atau variabel. Oleh karena itu adalah tepat dan nyaman untuk menghapus efek dari jumlah baris (dan hanya baris) pada hasil, terutama pada nilai eigen, dengan dekomposisi svd dari alih-alih . Perhatikan bahwa ini terkait dengan dekomposisi eigen dari , menjadi ukuran sampel . (Seringkali, sebagian besar dengan kovarian - untuk membuatnya tidak bias - kami lebih suka untuk membagi dengan , tetapi itu adalah nuansa.) $\bf X$ $\bf X$ $\mathbf Z=\mathbf X/\sqrt{r}$ $\bf X$ $\mathbf {X'X}/r$ $r$ n $r-1$

Perkalian dengan konstanta yang terpengaruh hanya ; dan tetap menjadi koordinat baris dan kolom yang dinormalisasi-satuan. $\bf X$ $\bf S$ $\bf U$ $\bf V$

Dari sini dan di mana-mana di bawah ini kita mendefinisikan kembali , dan seperti yang diberikan oleh svd dari , bukan dari ; menjadi versi normal dari , dan normalisasi bervariasi di antara jenis analisis. $\bf S$ $\bf U$ $\bf V$ $\bf Z$ $\bf X$ $\bf Z$ $\bf X$

Dengan mengalikan kita membawa rata - rata kuadrat dalam kolom ke 1. Mengingat bahwa baris adalah kasus acak bagi kita, itu logis. Dengan demikian, kami telah memperoleh apa yang disebut dalam skor pengamatan komponen standar atau standar PCA , . Kami tidak melakukan hal yang sama dengan karena variabel adalah entitas tetap. $\mathbf U\sqrt{r}=\bf U_*$ $\bf U$ $\bf U_*$ $\bf V$

Kita kemudian dapat berunding baris dengan semua inersia, untuk mendapatkan koordinat baris unstandardixed, juga disebut dalam PCA skor komponen baku utama dari pengamatan: . Formula ini akan kita sebut "jalan langsung". Hasil yang sama dikembalikan oleh ; kami akan menamakannya "cara tidak langsung". $\bf U_*S$ $\bf XV$

Secara analogi, kita dapat memberi kolom dengan semua inersia, untuk mendapatkan koordinat kolom yang tidak standar, juga disebut dalam PCA pemuatan variabel-komponen : [dapat mengabaikan transpose jika adalah persegi], - "cara langsung". Hasil yang sama dikembalikan oleh , - "cara tidak langsung". (Nilai komponen utama standar di atas juga dapat dihitung dari pemuatan sebagai , di mana adalah pemuatan.) $\bf VS'$ $\bf S$ $\bf Z'U$ $\bf X(AS^{-1/2})$ $\bf A$

Biplot

Pertimbangkan biplot dalam arti analisis reduksi dimensionalitas sendiri, bukan hanya sebagai "dual scatterplot". Analisis ini sangat mirip dengan PCA. Tidak seperti PCA, baik baris dan kolom diperlakukan, secara simetris, sebagai pengamatan acak, yang berarti bahwa dilihat sebagai tabel dua arah acak dari berbagai dimensi. Kemudian, secara alami, menormalkan dengan baik dan sebelum svd: . $\bf X$ $r$ $c$ $\mathbf Z=\mathbf X/\sqrt{rc}$

Setelah svd, hitung koordinat baris standar seperti yang kami lakukan di PCA: . Lakukan hal yang sama (tidak seperti PCA) dengan vektor kolom, untuk mendapatkan koordinat kolom standar : . Koordinat standar, baik dari baris maupun kolom, memiliki rata - rata kuadrat 1. $\mathbf U_*=\mathbf U\sqrt{r}$ $\mathbf V_*=\mathbf V\sqrt{c}$

Kami dapat memberikan baris dan / atau kolom koordinat dengan inersia dari nilai eigen seperti yang kami lakukan di PCA. Unstandardixed koordinat baris: (cara langsung). Unstandardixed koordinat kolom: (cara langsung). Bagaimana dengan cara tidak langsung? Anda dapat dengan mudah menyimpulkan dengan substitusi bahwa rumus tidak langsung untuk koordinat baris yang tidak standar adalah , dan untuk koordinat kolom yang tidak standar adalah . $\bf U_*S$ $\bf V_*S'$ $\mathbf {XV_*}/c$ $\mathbf {X'U_*}/r$

PCA sebagai kasus khusus Biplot . Dari uraian di atas Anda mungkin belajar bahwa PCA dan biplot hanya berbeda dalam bagaimana mereka menormalkan menjadi yang kemudian didekomposisi. Biplot dinormalisasi dengan jumlah baris dan jumlah kolom; PCA menormalkan hanya dengan jumlah baris. Akibatnya, ada sedikit perbedaan antara keduanya dalam perhitungan post-svd. Jika dalam melakukan biplot Anda menetapkan dalam rumusnya Anda akan mendapatkan hasil PCA persis. Dengan demikian, biplot dapat dilihat sebagai metode generik dan PCA sebagai kasus biplot tertentu. $\bf X$ $\bf Z$ $c=1$

[ Pemusatan kolom . Beberapa pengguna mungkin berkata: Stop, tetapi bukankah PCA juga membutuhkan dan pertama-tama pemusatan kolom data (variabel) untuk menjelaskan perbedaan ? Sementara biplot mungkin tidak melakukan pemusatan? Jawaban saya: hanya PCA dalam arti sempit yang memusatkan dan menjelaskan perbedaan; Saya sedang membahas linear PCA-in-general-sense, PCA yang menjelaskan semacam penyimpangan kuadrat dari asal yang dipilih; Anda mungkin memilihnya sebagai data mean, 0 asli atau apa pun yang Anda suka. Dengan demikian, operasi "pemusatan" bukanlah yang dapat membedakan PCA dari biplot.]

Baris dan kolom pasif

Dalam biplot atau PCA, Anda dapat mengatur beberapa baris dan / atau kolom menjadi pasif, atau tambahan. Baris atau kolom pasif tidak memengaruhi SVD dan karenanya tidak memengaruhi inersia atau koordinat baris / kolom lain, tetapi menerima koordinatnya dalam ruang sumbu utama yang dihasilkan oleh baris / kolom aktif (bukan pasif).

Untuk mengatur beberapa titik (baris / kolom) menjadi pasif, (1) tentukan dan menjadi jumlah baris dan kolom yang aktif saja. (2) Setel ke nol baris dan kolom pasif dalam sebelum svd. (3) Gunakan cara "tidak langsung" untuk menghitung koordinat baris / kolom pasif, karena nilai vektor eigennya akan nol. $r$ $c$ $\bf Z$

Di PCA, ketika Anda menghitung skor komponen untuk kasus masuk baru dengan bantuan pemuatan yang diperoleh pada pengamatan lama ( menggunakan matriks koefisien skor ), Anda benar-benar melakukan hal yang sama dengan mengambil kasus baru ini di PCA dan menjaganya tetap pasif. Demikian pula, untuk menghitung korelasi / kovarian dari beberapa variabel eksternal dengan skor komponen yang dihasilkan oleh PCA setara dengan mengambil variabel-variabel di PCA itu dan menjaganya tetap pasif.

Penyebaran inersia yang sewenang-wenang

Kuadrat rata-rata kolom (MS) dari koordinat standar adalah 1. Kuadrat kolom rata-rata (MS) dari koordinat tidak standar sama dengan inersia dari sumbu utama masing-masing: semua inersia nilai eigen disumbangkan ke vektor eigen untuk menghasilkan koordinat tidak standar.

Dalam biplot : koordinat standar baris memiliki MS = 1 untuk setiap sumbu utama. Baris koordinat unstandardixed, juga disebut baris pokok koordinat memiliki MS = sesuai nilai eigen dari . Hal yang sama berlaku untuk standar kolom dan koordinat (pokok) yang tidak standar. $\bf U_*$ $\mathbf {U_*S} = \mathbf {XV_*}/c$ $\bf Z$

Secara umum, tidak disyaratkan bahwa seseorang menganugerahkan koordinat dengan inersia baik secara penuh atau tidak sama sekali. Penyebaran sewenang-wenang diperbolehkan, jika perlu karena alasan tertentu. Biarkan menjadi proporsi inersia untuk pergi ke baris. Maka rumus umum koordinat baris adalah: (jalan langsung) = (cara tidak langsung). Jika kita mendapatkan koordinat baris standar, sedangkan dengan kita mendapatkan koordinat baris utama. $p_1$ $\bf U_*S^{p1}$ $\mathbf {XV_*S^{p1-1}}/c$ $p_1=0$ $p_1=1$

Demikian juga menjadi proporsi kelembaman yang pergi ke kolom. Maka rumus umum koordinat kolom adalah: (jalan langsung) = (cara tidak langsung). Jika kita mendapatkan koordinat kolom standar, sedangkan dengan kita mendapatkan koordinat kolom utama. $p_2$ $\bf V_*S^{p2}$ $\mathbf {X'U_*S^{p2-1}}/r$ $p_2=0$ $p_2=1$

Rumus tidak langsung umum bersifat universal karena mereka memungkinkan untuk menghitung koordinat (standar, pokok atau di antaranya) juga untuk titik-titik pasif, jika ada.

Jika mereka mengatakan inersia didistribusikan antara titik baris dan kolom. The , yaitu baris-pokok-kolom-standar, biplots kadang-kadang disebut "bentuk biplots" atau "pelestarian baris-metrik" biplots. The , yaitu baris-standar-kolom-pokok, biplots sering disebut dalam PCA sastra "kovarians biplots" atau "pelestarian kolom-metrik" biplots; mereka menampilkan pemuatan variabel ( yang disandingkan dengan kovarian) ditambah skor komponen standar, ketika diterapkan dalam PCA. $p_1+p_2=1$ $p_1=1,p_2=0$ $p_1=0,p_2=1$

Dalam analisis korespondensi , sering digunakan dan disebut normalisasi "simetris" atau "kanonik" oleh inersia - ini memungkinkan (meskipun pada beberapa ekspektasi keketatan geometris euclidean) membandingkan kedekatan antara titik baris dan kolom, seperti kita dapat dilakukan pada peta berlangsung multidimensi. $p_1=p_2=1/2$

Analisis Korespondensi (model Euclidean)

Analisis korespondensi dua arah (= sederhana) (CA) adalah biplot yang digunakan untuk menganalisis tabel kontingensi dua arah, yaitu, tabel non-negatif yang entri memuat makna semacam afinitas antara baris dan kolom. Ketika tabel adalah frekuensi digunakan analisis korespondensi model chi-square. Ketika entri, katakanlah, berarti atau skor lainnya, model Euclidean yang lebih sederhana digunakan.

Euclidean Model CA adalah hanya biplot yang dijelaskan di atas, hanya itu tabel adalah tambahan preprocessed sebelum memasuki operasi biplot. Secara khusus, nilai-nilai yang dinormalisasi tidak hanya oleh dan tetapi juga oleh jumlah total . $\bf X$ $r$ $c$ $N$

Preprocessing terdiri dari pemusatan, kemudian normalisasi dengan massa rata-rata. Pemusatan dapat beragam, paling sering: (1) pemusatan kolom; (2) pemusatan baris; (3) pemusatan dua arah yang merupakan operasi yang sama dengan perhitungan residu frekuensi; (4) pemusatan kolom setelah menyamakan jumlah kolom; (5) pemusatan baris setelah menyamakan jumlah baris. Normalisasi dengan massa rata-rata dibagi dengan nilai sel rata-rata dari tabel awal. Pada langkah preprocessing, baris / kolom pasif, jika ada, distandarisasi secara pasif: mereka dipusatkan / dinormalisasi oleh nilai yang dihitung dari baris / kolom aktif.

Kemudian biplot biasa dilakukan pada preprocessed , mulai dari $\bf X$ $\mathbf Z=\mathbf X/\sqrt{rc}$ .

Biplot tertimbang

Bayangkan bahwa aktivitas atau pentingnya sebuah baris atau kolom dapat berupa angka antara 0 dan 1, dan bukan hanya 0 (pasif) atau 1 (aktif) seperti dalam biplot klasik yang dibahas sejauh ini. Kita dapat menimbang data input dengan bobot baris dan kolom ini dan melakukan biplot tertimbang. Dengan biplot tertimbang, semakin besar bobot semakin berpengaruh adalah baris atau kolom tersebut mengenai semua hasil - kelembaman dan koordinat semua titik ke sumbu utama.

Pengguna memasok bobot baris dan bobot kolom. Ini dan orang-orang yang pertama dinormalisasi secara terpisah untuk jumlah ke 1. Kemudian langkah normalisasi adalah $\mathbf{Z_{ij} = X_{ij}}\sqrt{w_i w_j}$ , dengan $w_i$ dan $w_j$ menjadi bobot untuk baris i dan kolom j. Berat nol persisnya menunjukkan baris atau kolom menjadi pasif.

Pada titik itu kita dapat menemukan bahwa biplot klasik hanyalah biplot tertimbang ini dengan bobot sama $1/r$ untuk semua baris aktif dan bobot sama $1/c$ untuk semua kolom aktif; $r$ dan $c$ jumlah baris aktif dan kolom aktif.

Lakukan svd dari $\bf Z$ . Semua operasi yang sama seperti di biplot klasik, satu-satunya perbedaan adalah bahwa $w_i$ adalah di tempat $1/r$ dan $w_j$ adalah di tempat $1/c$ . Koordinat baris standar: $\mathbf {U_{*i}=U_i}/\sqrt{w_i}$ dan koordinat kolom standar: $\mathbf {V_{*j}=V_j}/\sqrt{w_j}$ . (Ini untuk baris / kolom dengan bobot bukan nol. Biarkan nilai 0 untuk yang beratnya nol dan gunakan rumus tidak langsung di bawah ini untuk mendapatkan koordinat standar atau apa pun untuknya.)

Berikan inersia untuk koordinat dalam proporsi yang Anda inginkan (dengan $p_1=1$ dan $p_2=1$ koordinat akan sepenuhnya tidak standar, atau pokok; dengan $p_1=0$ dan $p_2=0$ mereka akan tetap standar). Baris: $\bf U_*S^{p1}$ (cara langsung) = $\bf X[Wj]V_*S^{p1-1}$ (cara tidak langsung). Kolom: $\bf V_*S^{p2}$ (cara langsung) = $\bf ([Wi]X)'U_*S^{p2-1}$ (cara tidak langsung). Matriks dalam kurung di sini adalah matriks diagonal kolom dan bobot baris, masing-masing. Untuk titik pasif (yaitu, dengan bobot nol) hanya cara perhitungan tidak langsung yang sesuai. Untuk poin aktif (bobot positif), Anda dapat memilih cara mana pun.

PCA sebagai kasus khusus Biplot ditinjau kembali . Ketika mempertimbangkan biplot tanpa bobot sebelumnya saya menyebutkan bahwa PCA dan biplot adalah setara, satu-satunya perbedaan adalah bahwa biplot melihat kolom (variabel) dari data sebagai kasus acak simetris dengan pengamatan (baris). Setelah diperpanjang sekarang menjadi banyak biplot yang lebih umum, kami dapat sekali lagi mengklaimnya, mengamati bahwa satu-satunya perbedaan adalah bahwa (banyak) biplot menormalkan jumlah bobot kolom dari data input menjadi 1, dan (membobot) PCA - ke jumlah ( aktif) kolom. Jadi di sini adalah PCA tertimbang yang diperkenalkan. Hasilnya proporsional identik dengan biplot tertimbang. Khususnya, jika $c$ adalah jumlah kolom aktif, maka hubungan berikut ini benar, untuk versi klasik dari kedua analisis berbobot:

nilai eigen PCA = nilai eigen dari biplot $\cdot c$ ;
memuat = koordinat kolom di bawah "normalisasi utama" kolom;
skor komponen standar = koordinat baris di bawah "normalisasi standar" baris;
vektor eigen dari PCA = koordinat kolom di bawah "normalisasi standar" kolom $/ \sqrt c$ ;
skor komponen mentah = koordinat baris di bawah "normalisasi utama" dari baris $\cdot \sqrt c$ .

Analisis Korespondensi (model Chi-square)

Ini secara teknis adalah biplot berbobot di mana bobot dihitung dari tabel itu sendiri dan bukan dipasok oleh pengguna. Sebagian besar digunakan untuk menganalisis tabel-silang frekuensi. Biplot ini akan mendekati, dengan jarak euclidean pada plot, jarak chi-square dalam tabel. Jarak Chi-square secara matematis jarak euclidean berbobot terbalik dengan total marginal. Saya tidak akan melangkah lebih jauh dalam perincian geometri model Chi-square CA.

$\bf X$ $w_i=R_i/N$ $w_j=C_j/N$ $R_i$ $C_j$ $N$

$\bf X$ $\bf Z$ $R_i$ $C_j$ $\bf Z$

$\min(r-1,c-1)$

Lihat juga gambaran bagus model chi-square CA dalam jawaban ini .

Ilustrasi

Berikut ini beberapa tabel data.

 row     A     B     C     D     E     F
   1     6     8     6     2     9     9
   2     0     3     8     5     1     3
   3     2     3     9     2     4     7
   4     2     4     2     2     7     7
   5     6     9     9     3     9     6
   6     6     4     7     5     5     8
   7     7     9     6     6     4     8
   8     4     4     8     5     3     7
   9     4     6     7     3     3     7
  10     1     5     4     5     3     6
  11     1     5     6     4     8     3
  12     0     6     7     5     3     1
  13     6     9     6     3     5     4
  14     1     6     4     7     8     4
  15     1     1     5     2     4     3
  16     8     9     7     5     5     9
  17     2     7     1     3     4     4
  28     5     3     3     9     6     4
  19     6     7     6     2     9     6
  20    10     7     4     4     8     7

Beberapa dual scatterplots (dalam 2 dimensi utama pertama) dibangun berdasarkan analisis dari nilai-nilai ini. Titik kolom dihubungkan dengan titik asal dengan paku untuk penekanan visual. Tidak ada baris atau kolom pasif dalam analisis ini.

Biplot pertama adalah hasil SVD dari tabel data yang dianalisis "sebagaimana adanya"; koordinatnya adalah baris dan vektor vektor eigen.

masukkan deskripsi gambar di sini

Di bawah ini adalah salah satu dari dua kemungkinan biplots yang berasal dari PCA . PCA dilakukan pada data "sebagaimana adanya", tanpa memusatkan kolom; Namun, seperti yang diadopsi dalam PCA, normalisasi dengan jumlah baris (jumlah kasus) dilakukan pada awalnya. Biplot khusus ini menampilkan koordinat baris utama (yaitu skor komponen mentah) dan koordinat kolom utama (yaitu pemuatan variabel).

masukkan deskripsi gambar di sini

Berikutnya adalah biplot sensu stricto : Tabel awalnya dinormalisasi baik dengan jumlah baris dan jumlah kolom. Normalisasi prinsipal (penyebaran inersia) digunakan untuk koordinat baris dan kolom - seperti PCA di atas. Perhatikan kesamaan dengan biplot PCA: satu-satunya perbedaan adalah karena perbedaan dalam normalisasi awal.

masukkan deskripsi gambar di sini

Analisis korespondensi model Chi-square biplot. Tabel data diolah dengan cara khusus, termasuk pemusatan dua arah dan normalisasi menggunakan total marginal. Ini adalah biplot tertimbang. Inersia tersebar di baris dan kolom berkoordinasi secara simetris - keduanya berada di tengah-tengah antara koordinat "pokok" dan "standar".

masukkan deskripsi gambar di sini

Koordinat ditampilkan pada semua sebar ini:

point      dim1_1   dim2_1   dim1_2   dim2_2   dim1_3   dim2_3   dim1_4   dim2_4
1            .290     .247   16.871    3.048    6.887    1.244    -.479    -.101
2            .141    -.509    8.222   -6.284    3.356   -2.565    1.460    -.413
3            .198    -.282   11.504   -3.486    4.696   -1.423     .414    -.820
4            .175     .178   10.156    2.202    4.146     .899    -.421     .339
5            .303     .045   17.610     .550    7.189     .224    -.171    -.090
6            .245    -.054   14.226    -.665    5.808    -.272    -.061    -.319
7            .280     .051   16.306     .631    6.657     .258    -.180    -.112
8            .218    -.248   12.688   -3.065    5.180   -1.251     .322    -.480
9            .216    -.105   12.557   -1.300    5.126    -.531     .036    -.533
10           .171    -.157    9.921   -1.934    4.050    -.789     .433     .187
11           .194    -.137   11.282   -1.689    4.606    -.690     .384     .535
12           .157    -.384    9.117   -4.746    3.722   -1.938    1.121     .304
13           .235     .099   13.676    1.219    5.583     .498    -.295    -.072
14           .210    -.105   12.228   -1.295    4.992    -.529     .399     .962
15           .115    -.163    6.677   -2.013    2.726    -.822     .517    -.227
16           .304     .103   17.656    1.269    7.208     .518    -.289    -.257
17           .151     .147    8.771    1.814    3.581     .741    -.316     .670
18           .198    -.026   11.509    -.324    4.699    -.132     .137     .776
19           .259     .213   15.058    2.631    6.147    1.074    -.459     .005
20           .278     .414   16.159    5.112    6.597    2.087    -.753     .040
A            .337     .534    4.387    1.475    4.387    1.475    -.865    -.289
B            .461     .156    5.998     .430    5.998     .430    -.127     .186
C            .441    -.666    5.741   -1.840    5.741   -1.840     .635    -.563
D            .306    -.394    3.976   -1.087    3.976   -1.087     .656     .571
E            .427     .289    5.556     .797    5.556     .797    -.230     .518
F            .451     .087    5.860     .240    5.860     .240    -.176    -.325

ttnphns
sumber

Pertanyaan menarik (+1) serta jawaban yang sangat bagus dan komprehensif (+1). Namun, jawabannya IMHO sangat membutuhkan beberapa bantuan visual untuk membuat lebih baik semua matematika yang bagus.

Aleksandr Blekh

Saya telah menambahkan beberapa contoh foto.

ttnphns

Luarbiasa, terimakasih! (Itu bukan untuk mengatakan bahwa saya mengerti segalanya, tetapi, setidaknya, sekarang saya sedikit lebih termotivasi untuk mencoba :-).

Aleksandr Blekh

PCA dan analisis Korespondensi dalam hubungannya dengan Biplot

Jawaban:

SVD

Analisis Komponen Utama oleh SVD

Biplot

Baris dan kolom pasif

Penyebaran inersia yang sewenang-wenang

Analisis Korespondensi (model Euclidean)

Biplot tertimbang

Analisis Korespondensi (model Chi-square)

Ilustrasi