Apakah CCA antara dua dataset identik sama dengan PCA pada dataset ini?

9

Membaca Wikipedia tentang analisis korelasi kanonik (CCA) untuk dua vektor acak dan , saya bertanya-tanya apakah komponen utama analisis (PCA) sama dengan CCA ketika ?Y X = YXYX=Y

Tim
sumber
Harap lebih jelas: 1) vectors X and YApakah itu dua variabel (kolom data) atau dua kasus (baris); mengingat bahwa kita akan melakukan analisis variabel. 2) X and Y are the sameApakah Anda ingin mengatakan bahwa X = Y atau sebaliknya?
ttnphns
@ttnphns: 1) dan adalah dua vektor acak. Mereka adalah dua vektor variabel acak, dua set kolom data, bukan dua kasus (baris). 2) . Y X = YXYX=Y
Tim
Jika setiap set terdiri dari satu variabel, ada satu korelasi kanonik yang persis sama dengan p Pearson di antara mereka; dan CCA menjadi regresi linier X oleh Y dan sebaliknya. Dekomposisi r itu melalui PCA adalah sedikit cerita lain. PCA dan CCA adalah analisis yang berbeda.
ttnphns
Hai, @Tim, saya bertanya-tanya apakah jawaban saya bermanfaat atau apakah Anda masih memiliki pertanyaan lebih lanjut? Jika demikian, saya akan dengan senang hati menjelaskan.
amoeba
@amoeba: Ya, benar. Saya tidak memiliki pertanyaan lebih lanjut sekarang, dan akan membaca balasan Anda nanti. Terima kasih atas balasan Anda. + 1
Tim

Jawaban:

6

Biarkan menjadi dan menjadi matriks data, mewakili dua kumpulan data dengan sampel (yaitu pengamatan vektor baris acak Anda dan ) di masing-masingnya.n × p 1 Y n × p 2 n X YXn×p1Yn×p2nXY

CCA mencari kombinasi linear dari variabel dalam dan kombinasi linear dari variabel di sedemikian sehingga mereka berkorelasi secara maksimal antara satu sama lain; kemudian mencari pasangan berikutnya, di bawah batasan nol korelasi dengan pasangan pertama; dll. X p 2 Yp1Xp2Y

Dalam kasus (dan ), setiap kombinasi linear dalam satu dataset secara sepele akan memiliki korelasi dengan kombinasi linear yang sama dengan kombinasi linear yang sama dalam dataset lain. Jadi semua pasangan CCA akan memiliki korelasi , dan urutan pasangan berubah-ubah. Satu-satunya kendala yang tersisa adalah bahwa kombinasi linier harus saling berkorelasi satu sama lain. Ada banyak cara untuk memilih kombinasi linear tidak berkorelasi (perhatikan bahwa bobot tidak harus ortogonal dalam ruang dimensi) dan salah satunya akan menghasilkan solusi CCA yang valid. Salah satu cara tersebut memang diberikan oleh PCA, karena setiap dua PC memiliki korelasi nol.p 1 = p 2 = p 1 1 p pX=Yp1=p2=p11pp

Jadi solusi PCA memang akan menjadi solusi CCA yang valid, tetapi ada jumlah tak terbatas solusi CCA yang setara dalam hal ini.


Secara matematis, CCA mencari kanan ( ) dan kiri ( ) vektor tunggal dari , yang dalam hal ini sama dengan , dengan vektor apa saja yang merupakan vektor eigen. Jadi bisa berubah-ubah. CCA kemudian mendapatkan bobot kombinasi linear sebagai dan . Dalam hal ini ia bermuara pada mengambil dasar yang sewenang-wenang dan mengubahnya dengan , yang memang akan menghasilkan arah yang tidak berkorelasi .b C - 1 / 2 X X C X Y C - 1 / 2 Y Y saya a = b C - 1 / 2 X X a C - 1 / 2 Y Y b C - 1 / 2 X XabCXX1/2CXYCYY1/2Ia=bCXX1/2aCYY1/2bCXX1/2

amuba
sumber