Melakukan CCA vs membangun variabel dependen dengan PCA dan kemudian melakukan regresi

9

Diberi dua dataset multidimensi, X dan Y, beberapa orang melakukan analisis multivariabel dengan membangun variabel dependen pengganti menggunakan analisis komponen utama (PCA). Yaitu, jalankan PCAY atur, ambil skor di sepanjang komponen pertama y, dan jalankan regresi berganda untuk skor tersebut di X: y=βX+ϵ. (Saya mendasarkan pertanyaan saya pada artikel ini ).

Sepertinya beberapa bentuk analisis korelasi kanonik tercemar (CCA) antara dua set data bagi saya. Tetapi karena tidak memiliki latar belakang di bidang ini, saya tidak dapat menempatkan jari saya di atasnya. Jadi pertanyaan saya adalah, apa yang bisa menjadi pro / kontra dari analisis regresi PCA +, dibandingkan dengan CCA?

Intuition mengatakan bahwa CCA harus lebih masuk akal di sini, karena (saya percaya) CCA membangun varian kanonik untuk tidak secara maksimal memaksimalkan varian yang dijelaskan, tetapi sudah dengan tujuan akhir memaksimalkan korelasi dengan Xdalam pikiran. Apakah saya benar?


Referensi: Mei et al., 2010, Regresi multivariat berbasis komponen utama untuk studi asosiasi genetik komponen sindrom metabolik

anak muda
sumber

Jawaban:

6

Ini adalah pertanyaan yang bagus, tetapi karena Anda tahu bahwa PCA dan CCA adalah kesepakatan, maka Anda dapat menjawabnya sendiri. Dan kamu juga:

[CCA] membangun varian kanonik untuk tidak membabi buta [wrt keberadaan X] memaksimalkan varian yang dijelaskan [dalam Y], tetapi sudah dengan tujuan akhir memaksimalkan korelasi dengan X dalam pikiran.

Sepenuhnya benar. Korelasi PC Y Pertama dengan set X akan hampir selalu lebih lemah daripada korelasi CV Y Pertama dengan itu. Ini terlihat dari gambar yang membandingkan PCA dengan tindakan CCA.

Regresi PCA + yang Anda bayangkan adalah strategi dua langkah, awalnya "tanpa pengawasan" ("buta", seperti yang Anda katakan), sedangkan CCA adalah strategi satu langkah, "diawasi". Keduanya valid - masing-masing dalam pengaturan investigasi sendiri!

Komponen utama 1 (PC1) yang diperoleh dalam PCA set Y adalah kombinasi linear dari variabel Y. Variasi kanonik pertama (CV1) diekstraksi dari set Y dalam CCA set Y dan X juga merupakan kombinasi linear dari variabel Y juga. Tetapi mereka berbeda. (Jelajahi foto yang ditautkan, perhatikan juga frasa CCA yang lebih dekat dengan - sebenarnya bentuk - regresi daripada PCA.)

PC1 mewakili set Y . Ini adalah ringkasan linear dan "wakil" dari set Y, untuk menghadapi hubungan dunia luar nanti (seperti dalam regresi PC1 berikutnya oleh variabel X).

CV1 mewakili himpunan X dalam himpunan Y. Ini adalah gambar linier X milik Y, "orang dalam" di Y. Hubungan YX sudah ada di sana: CCA adalah regresi multivarian.

Misalkan saya mendapat hasil sampel anak-anak pada kuesioner kecemasan sekolah (seperti tes Phillips) - item Y, dan hasilnya pada kuesioner adaptasi sosial - item X. Saya ingin membangun hubungan antara dua set. Item-item dari dalam X dan di dalam Y berkorelasi, tetapi mereka sangat berbeda dan saya tidak senang dengan ide untuk meringkas skor item menjadi satu skor di setiap set, jadi saya memilih untuk tetap multivarian.

Jika saya melakukan PCA dari Y, mengekstraksi PC1, dan kemudian mundur pada item X, apa artinya? Ini berarti bahwa saya menghormati kuesioner kecemasan (item Y) sebagai domain fenomena berdaulat (tertutup), yang dapat mengekspresikan diri. Ekspresikan dengan mengeluarkan jumlah barang tertimbang terbaiknya (akuntansi untuk varian maksimal) yang mewakili seluruh rangkaian Y - faktor umum / poros / tren, "kompleks kecemasan sekolah umum", PC1. Tidak sebelum representasi terbentuk, saya beralih ke pertanyaan berikutnya bagaimana mungkin terkait dengan adaptasi sosial, pertanyaan saya akan memeriksa dalam regresi.

Jika saya melakukan CCAY vs X, mengekstraksi pasangan pertama varian kanonik - satu dari setiap set - memiliki korelasi maksimal, apa artinya? Itu berarti bahwa saya mencurigai faktor umum antara (di belakang) kecemasan dan adaptasi yang membuat mereka berkorelasi satu sama lain. Namun, saya tidak memiliki alasan atau alasan untuk mengekstraksi atau memodelkan faktor tersebut melalui PCA atau analisis Faktor dari himpunan gabungan "variabel X + variabel Y" (karena, misalnya, saya melihat kecemasan dan adaptasi sebagai dua domain yang sangat berbeda secara konseptual, atau karena kedua kuesioner memiliki skala (unit) yang sangat berbeda atau distribusi dengan bentuk berbeda yang saya khawatirkan "bergabung", atau jumlah item di dalamnya sangat berbeda). Saya akan puas hanya dengan korelasi kanonik antara set. Atau saya mungkin tidak mengandaikan "faktor umum" di balik set, dan hanya berpikir "efek X Y". Karena Y adalah multivariat, efeknya multidimensi, dan saya meminta efek urutan pertama dan terkuat. Ini diberikan oleh korelasi kanonik 1 dan variabel prediksi yang sesuai dengannya adalah CV1 dari set Y. CV1 diambil dari Y, Y tidakselbständig produsen itu.

ttnphns
sumber
1
+1. Saya mungkin akan menambahkan bahwa CCA, seperti regresi lainnya, cenderung overfitting. Jadi jika Y dan / atau X memasukkan banyak variabel, maka melakukan CCA dapat menghasilkan komponen pertama dalam Y yang diprediksi hampir 100% dari X tetapi sebenarnya sepenuhnya disebabkan oleh noise. Melakukan PCA pada X dan Y sebelum melakukan CCA dapat bertindak sebagai semacam regularisasi. Mengurangi Y ke satu PC dalam bentuk ekstrem.
amoeba
@amoeba, terima kasih untuk tambahannya. Itu menyentuh sisi inferensial cerita (populasi, signifikansi, kekikiran) yang saya sepenuhnya hilangkan dalam jawabannya. Saya pikir saya mengerti apa yang Anda katakan, tetapi Anda mengatakannya terlalu khusus untuk seseorang. Overfitting, noise - hal-hal ini harus dijelaskan, jadi saya mungkin menyarankan Anda untuk mengeluarkan jawaban terpisah untuk membuka komentar Anda.
ttnphns