Ini adalah pertanyaan yang bagus, tetapi karena Anda tahu bahwa PCA dan CCA adalah kesepakatan, maka Anda dapat menjawabnya sendiri. Dan kamu juga:
[CCA] membangun varian kanonik untuk tidak membabi buta [wrt keberadaan X] memaksimalkan varian yang dijelaskan [dalam Y], tetapi sudah dengan tujuan akhir memaksimalkan korelasi dengan X dalam pikiran.
Sepenuhnya benar. Korelasi PC Y Pertama dengan set X akan hampir selalu lebih lemah daripada korelasi CV Y Pertama dengan itu. Ini terlihat dari gambar yang membandingkan PCA dengan tindakan CCA.
Regresi PCA + yang Anda bayangkan adalah strategi dua langkah, awalnya "tanpa pengawasan" ("buta", seperti yang Anda katakan), sedangkan CCA adalah strategi satu langkah, "diawasi". Keduanya valid - masing-masing dalam pengaturan investigasi sendiri!
Komponen utama 1 (PC1) yang diperoleh dalam PCA set Y adalah kombinasi linear dari variabel Y. Variasi kanonik pertama (CV1) diekstraksi dari set Y dalam CCA set Y dan X juga merupakan kombinasi linear dari variabel Y juga. Tetapi mereka berbeda. (Jelajahi foto yang ditautkan, perhatikan juga frasa CCA yang lebih dekat dengan - sebenarnya bentuk - regresi daripada PCA.)
PC1 mewakili set Y . Ini adalah ringkasan linear dan "wakil" dari set Y, untuk menghadapi hubungan dunia luar nanti (seperti dalam regresi PC1 berikutnya oleh variabel X).
CV1 mewakili himpunan X dalam himpunan Y. Ini adalah gambar linier X milik Y, "orang dalam" di Y. Hubungan YX sudah ada di sana: CCA adalah regresi multivarian.
Misalkan saya mendapat hasil sampel anak-anak pada kuesioner kecemasan sekolah (seperti tes Phillips) - item Y, dan hasilnya pada kuesioner adaptasi sosial - item X. Saya ingin membangun hubungan antara dua set. Item-item dari dalam X dan di dalam Y berkorelasi, tetapi mereka sangat berbeda dan saya tidak senang dengan ide untuk meringkas skor item menjadi satu skor di setiap set, jadi saya memilih untuk tetap multivarian.
Jika saya melakukan PCA dari Y, mengekstraksi PC1, dan kemudian mundur pada item X, apa artinya? Ini berarti bahwa saya menghormati kuesioner kecemasan (item Y) sebagai domain fenomena berdaulat (tertutup), yang dapat mengekspresikan diri. Ekspresikan dengan mengeluarkan jumlah barang tertimbang terbaiknya (akuntansi untuk varian maksimal) yang mewakili seluruh rangkaian Y - faktor umum / poros / tren, "kompleks kecemasan sekolah umum", PC1. Tidak sebelum representasi terbentuk, saya beralih ke pertanyaan berikutnya bagaimana mungkin terkait dengan adaptasi sosial, pertanyaan saya akan memeriksa dalam regresi.
Jika saya melakukan CCAY vs X, mengekstraksi pasangan pertama varian kanonik - satu dari setiap set - memiliki korelasi maksimal, apa artinya? Itu berarti bahwa saya mencurigai faktor umum antara (di belakang) kecemasan dan adaptasi yang membuat mereka berkorelasi satu sama lain. Namun, saya tidak memiliki alasan atau alasan untuk mengekstraksi atau memodelkan faktor tersebut melalui PCA atau analisis Faktor dari himpunan gabungan "variabel X + variabel Y" (karena, misalnya, saya melihat kecemasan dan adaptasi sebagai dua domain yang sangat berbeda secara konseptual, atau karena kedua kuesioner memiliki skala (unit) yang sangat berbeda atau distribusi dengan bentuk berbeda yang saya khawatirkan "bergabung", atau jumlah item di dalamnya sangat berbeda). Saya akan puas hanya dengan korelasi kanonik antara set. Atau saya mungkin tidak mengandaikan "faktor umum" di balik set, dan hanya berpikir "efek X Y". Karena Y adalah multivariat, efeknya multidimensi, dan saya meminta efek urutan pertama dan terkuat. Ini diberikan oleh korelasi kanonik 1 dan variabel prediksi yang sesuai dengannya adalah CV1 dari set Y. CV1 diambil dari Y, Y tidakselbständig produsen itu.