Menggunakan analisis komponen utama vs analisis korespondensi

9

Saya menganalisis set data tentang komunitas intertidal. Data berupa persen tutupan (dari rumput laut, teritip, kerang, dll) dalam kuadrat. Saya terbiasa memikirkan analisis korespondensi (CA) dalam hal jumlah spesies , dan analisis komponen utama (PCA) sebagai sesuatu yang lebih berguna untuk tren lingkungan (bukan spesies) linier. Saya belum benar-benar beruntung mengetahui apakah PCA atau CA akan lebih cocok untuk persen penutup (tidak dapat menemukan kertas), dan saya bahkan tidak yakin bagaimana sesuatu yang dibatasi hingga 100% akan didistribusikan ?

Saya akrab dengan pedoman kasar bahwa jika panjang sumbu analisis korespondensi detrended (DCA) pertama lebih besar dari 2, maka Anda dapat dengan aman berasumsi bahwa CA harus digunakan. Panjang sumbu DCA 1 adalah 2,17, yang menurut saya tidak membantu.

HF Mendengkur
sumber
3
PCA dan CA keduanya terkait dan keduanya dapat didasarkan pada algoritma SVD. Perbedaan formal mendasar (tidak disebutkan dalam jawaban mendalam Gavin jika tidak) adalah bahwa PCA hanya menguraikan hubungan antar kolom saja (misalnya dengan menguraikan matriks kovariansnya), memperlakukan baris sebagai "kasus"; sementara CA menguraikan kolom dan baris secara bersamaan, memperlakukannya secara simetris, sebagai tabulasi silang "kategori". Oleh karena itu biplot yang ditinggalkan oleh CA dan quasi-biplot (memuat skor +) yang dapat diplot setelah PCA memberikan informasi yang secara konseptual sangat berbeda.
ttnphns

Jawaban:

9

PCA bekerja pada nilai-nilai dimana CA bekerja pada nilai-nilai relatif. Keduanya baik untuk data kelimpahan relatif dari jenis yang Anda sebutkan (dengan satu peringatan utama, lihat nanti). Dengan% data Anda sudah memiliki ukuran relatif, tetapi masih akan ada perbedaan. Bertanya pada diri sendiri

  • apakah Anda ingin menekankan pola dalam spesies / taksa yang melimpah (yaitu yang dengan tutupan% besar), atau
  • Anda ingin fokus pada pola komposisi relatif?

Jika yang pertama, gunakan PCA. Jika yang terakhir menggunakan CA. Apa yang saya maksud dengan dua pertanyaan itu adalah yang Anda inginkan

A = {50, 20, 10}
B = { 5,  2,  1}

dianggap berbeda atau sama? Adan Bdua sampel dan nilainya adalah% penutup dari tiga taksa yang ditunjukkan. (Contoh ini ternyata buruk, anggap ada tanah kosong! ;-) PCA akan mempertimbangkan ini sangat berbeda karena jarak Euclidean yang digunakan, tetapi CA akan menganggap kedua sampel ini sangat mirip karena memiliki profil relatif yang sama.

Peringatan besar di sini adalah sifat komposisi data yang tertutup. Jika Anda memiliki beberapa kelompok (Pasir, Lumpur, Tanah Liat, misalnya) yang berjumlah 1 (100%) maka tidak ada pendekatan yang benar dan Anda dapat pindah ke analisis yang lebih tepat melalui Aitchison's Log-rasio PCA yang dirancang untuk komposisi tertutup data. (IIRC untuk melakukan ini, Anda perlu memusatkan pada baris dan kolom, dan log mentransformasikan data.) Ada pendekatan lain juga. Jika Anda menggunakan R, maka salah satu buku yang akan berguna Menganalisis komposisional data dengan R .

Gavin Simpson
sumber
Seperti biasa, jawaban Gavin sangat bagus. Terima kasih! Itu menjelaskan banyak hal, dan saya akan menggunakan PCA. Mengingat bahwa komunitas intertidal adalah 3 dimensi, persen tutupan sebenarnya menjadi 100% dalam beberapa kasus ketika organisme tumbuh satu sama lain. Ini bukan bentuk komposisi tertutup yang Anda bicarakan, kan?
HFBrowning
Tidak, bukan itu yang dia bicarakan. Secara tertutup, saya percaya maksudnya sistem dengan tiga spesies A, B, C, Anda memiliki% C = 100% -% B -% A
Pertinax
dan bagaimana dengan DCA?
Darwin PC
DCA adalah versi CA yang kacau sehingga prinsip-prinsip umum yang sama berlaku untuknya. DCA melakukan penyiksaan aneh terhadap data dan saya pikir kita tidak perlu repot dengan itu sebagai metode di kotak alat kita hari ini, tetapi pendapat orang lain akan berbeda-beda.
Gavin Simpson