Analisis korelasi kanonik dengan korelasi peringkat

15

Analisis korelasi kanonik (CCA) bertujuan untuk memaksimalkan korelasi product-moment Pearson yang biasa (yaitu koefisien korelasi linier) dari kombinasi linear dari dua set data.

Sekarang, pertimbangkan fakta bahwa koefisien korelasi ini hanya mengukur asosiasi linier - ini adalah alasan mengapa kami juga menggunakan, misalnya, koefisien korelasi Spearman- atau Kendall- τ yang mengukur hubungan monoton (tidak harus linier) yang sewenang-wenang antara variabel.ρτ

Oleh karena itu, saya memikirkan hal berikut: satu batasan CCA adalah CCA hanya mencoba menangkap hubungan linier antara kombinasi linear yang terbentuk karena fungsi objektifnya. Tidak akan mungkin untuk memperpanjang CCA dalam arti dengan memaksimalkan, mengatakan, Spearman- bukan Pearson- rρr ?

Akankah prosedur seperti itu mengarah pada sesuatu yang dapat ditafsirkan secara statistik dan bermakna? (Apakah masuk akal - misalnya - untuk melakukan CCA pada peringkat ...?) Saya bertanya-tanya apakah itu akan membantu ketika kita berurusan dengan data yang tidak normal ...

Tamas Ferenci
sumber
4
Akankah OVERAL - analisis kanonik linier yang secara optimal mengukur variabel (mengubah secara monoton) untuk memaksimalkan korelasi kanonik - sesuai dengan keinginan Anda?
ttnphns
@ttnphns: Terima kasih untuk idenya, saya belum pernah mendengarnya sebelumnya, dan terlihat sangat menarik! Namun, saya tidak berpikir itu membahas intinya: sejauh yang saya mengerti, itu pada dasarnya adalah kombinasi dari penskalaan optimal dan CCA - tetapi penskalaan optimal hanya masuk akal untuk variabel kategori. Sepertinya tidak banyak berubah variabel kontinu yang diukur pada skala rasio (yang ada di pikiran saya!). Tapi perbaiki saya, jika saya salah.
Tamas Ferenci
1
@ttnphns: Ya, cara yang sama Anda terkadang menggunakan korelasi Spearman pada variabel kontinu! (Tentu saja menangani data sebagai ordinal ... tapi kami tetap menggunakannya pada variabel kontinu untuk mengkarakterisasi hubungan monoton umum (dan tidak hanya linier) antara variabel.) Itulah mengapa saya pikir ini akan masuk akal di dalam CCA juga ...
Tamas Ferenci
@ Glen_b, Anda benar. Tentu saja korelasi peringkat adalah untuk monotonitas apa pun - baik itu data ordinal atau kontinu. Saya sangat terkejut dengan komentar saya di atas sehingga saya menghapusnya.
ttnphns
Anda dapat mencoba menggunakan Kernel CCA yang secara spesifik ketika digunakan dengan fungsi basis radial memungkinkan kami memproyeksikan data ke dalam subruang dimensi tak terbatas.
roni

Jawaban:

6

Saya menggunakan ekspansi spline kubik terbatas ketika menghitung varian kanonik. Anda menambahkan fungsi nonlinear basis ke analisis persis seperti Anda akan menambahkan fitur baru. Ini menghasilkan analisis komponen utama nonlinear. Lihat R Hmiscpaket 's transcanfungsi untuk contoh. homalsPaket R mengambil ini lebih jauh.

Frank Harrell
sumber
1
Terima kasih! Pendekatan yang dijelaskan dalam homals adalah hal baru bagi saya, tetapi jelas menarik.
Tamas Ferenci
4

Metode standar CCA bekerja dengan matriks koefisien korelasi momen produk. Untuk mgnitude CC terbesar, ia membangun dua variabel komposit z1 (n) dan z2 (n) dengan kombinasi linear dua matix (dengan n rows dan variabel m1 dan m2) sedemikian sehingga abs (korelasi (z1, z2)) dimaksimalkan. Fungsi obyektif ini dapat dimaksimalkan secara langsung bahkan jika korelasi (z1, z2) bukan momen produk tetapi didefinisikan secara berbeda.

Mishra, SK (2009) "Catatan tentang Analisis Korelasi Canonical Ordinal dari Dua Set Skor Peringkat"

http://papers.ssrn.com/sol3/papers.cfm?abstract_id=1328319

SK Mishra
sumber