Saya memiliki variabel berbeda yang berinteraksi dalam suatu populasi. Pada dasarnya saya telah melakukan inventarisasi kaki seribu dan mengukur beberapa nilai medan lainnya, seperti:
- Spesies dan jumlah spesimen yang dikumpulkan
- Lingkungan yang berbeda di mana hewan berada
- pH
- Persentase bahan organik
- jumlah P, K, Mg, Ca, Mn, Fe, Zn, Cu
- Hubungan Ca + Mg / K
Pada dasarnya saya ingin menggunakan PCA untuk menentukan variabel mana yang mendorong variabilitas sampel dan membuat hutan (lingkungan) berbeda; variabel mana yang harus saya gunakan untuk "variabel" dan yang mana untuk "individu"?
Jawaban:
Seperti @amoeba disebutkan dalam komentar, PCA hanya akan melihat satu set data dan itu akan menunjukkan kepada Anda pola (linear) utama variasi dalam variabel-variabel tersebut, korelasi atau kovarian antara variabel-variabel tersebut, dan hubungan antara sampel (baris) ) di kumpulan data Anda.
Apa yang biasanya dilakukan seseorang dengan kumpulan data spesies dan serangkaian variabel penjelas yang potensial adalah agar sesuai dengan penahbisan yang dibatasi. Dalam PCA, komponen utama, sumbu pada biplot PCA, diturunkan sebagai kombinasi linear optimal dari semua variabel. Jika Anda menjalankan ini pada kumpulan data kimia tanah dengan variabel pH, , TotalCarbon, Anda mungkin menemukan bahwa komponen pertama adalahC a2 +
dan komponen kedua
Komponen-komponen ini dapat dipilih secara bebas dari variabel yang diukur, dan yang dipilih adalah mereka yang menjelaskan secara berurutan jumlah variasi terbesar dalam dataset, dan bahwa setiap kombinasi linier adalah ortogonal (tidak berkorelasi dengan) yang lain.
Dalam pentahbisan terbatas, kita memiliki dua kumpulan data, tetapi kita tidak bebas memilih kombinasi linear apa pun dari kumpulan data pertama (data kimia tanah di atas) yang kita inginkan. Alih-alih, kita harus memilih kombinasi linear dari variabel dalam kumpulan data kedua yang paling menjelaskan variasi di variabel pertama. Juga, dalam kasus PCA, satu set data adalah matriks respons dan tidak ada prediktor (Anda bisa menganggap respons sebagai memprediksi sendiri). Dalam kasus terbatas, kami memiliki set data respons yang ingin kami jelaskan dengan satu set variabel penjelas.
Meskipun Anda belum menjelaskan variabel mana yang menjadi respons, biasanya orang ingin menjelaskan variasi dalam kelimpahan atau komposisi spesies tersebut (yaitu respons) menggunakan variabel penjelas lingkungan.
Versi PCA yang terbatas adalah sesuatu yang disebut Redundancy Analysis (RDA) dalam lingkaran ekologis. Ini mengasumsikan model respons linier yang mendasari untuk spesies, yang entah tidak tepat atau hanya sesuai jika Anda memiliki gradien pendek di mana spesies merespons.
Alternatif untuk PCA adalah hal yang disebut analisis korespondensi (CA). Ini tidak dibatasi tetapi memiliki model respon unimodal yang mendasarinya, yang agak lebih realistis dalam hal bagaimana spesies merespon sepanjang gradien yang lebih panjang. Perhatikan juga bahwa model CA kelimpahan atau komposisi relatif , PCA memodelkan kelimpahan mentah.
Ada versi CA terbatas, yang dikenal sebagai analisis korespondensi terbatas atau kanonik (CCA) - jangan dikacaukan dengan model statistik yang lebih formal yang dikenal sebagai analisis korelasi kanonik.
Baik dalam RDA dan CCA tujuannya adalah untuk memodelkan variasi kelimpahan atau komposisi spesies sebagai serangkaian kombinasi linear dari variabel penjelas.
Dari uraian itu, sepertinya istri Anda ingin menjelaskan variasi dalam komposisi spesies kaki seribu (atau kelimpahan) dalam hal variabel-variabel lain yang diukur.
Beberapa kata peringatan; RDA dan CCA hanyalah regresi multivarian; CCA hanyalah regresi multivariat tertimbang. Apa pun yang Anda pelajari tentang regresi berlaku, dan ada beberapa gotcha lainnya juga:
jadi saran saya sama dengan regresi; pikirkan terlebih dahulu apa hipotesis Anda dan sertakan variabel yang mencerminkan hipotesis tersebut. Jangan hanya membuang semua variabel penjelas ke dalam campuran.
Contoh
Penahbisan yang tidak dibatasi
PCA
Saya akan menunjukkan contoh membandingkan PCA, CA dan CCA menggunakan paket vegan untuk R yang saya bantu pertahankan dan yang dirancang agar sesuai dengan jenis metode penahbisan ini:
vegan tidak membakukan Inertia, tidak seperti Canoco, jadi total variansnya adalah 1826 dan nilai Eigen ada di unit yang sama dan berjumlah 1826
Kami juga melihat bahwa nilai Eigen pertama adalah sekitar setengah varians dan dengan dua sumbu pertama kami telah menjelaskan ~ 80% dari total varians
Biplot dapat diambil dari skor sampel dan spesies pada dua komponen utama pertama
ada dua masalah di sini
CA
CA dapat membantu dengan kedua titik ini karena menangani gradien panjang yang lebih baik karena model respons unimodal, dan model komposisi relatif spesies tidak kelimpahan mentah.
Kode vegan / R untuk melakukan ini mirip dengan kode PCA yang digunakan di atas
Di sini kami menjelaskan sekitar 40% variasi antar situs dalam komposisi relatifnya
Plot gabungan spesies dan skor lokasi sekarang kurang didominasi oleh beberapa spesies
PCA atau CA mana yang Anda pilih harus ditentukan oleh pertanyaan yang ingin Anda tanyakan dari data. Biasanya dengan data spesies, kita lebih sering tertarik pada perbedaan dalam rangkaian spesies sehingga CA adalah pilihan yang populer. Jika kita memiliki satu set data variabel lingkungan, mengatakan air atau kimia tanah, kita tidak akan mengharapkan mereka untuk merespon dengan cara yang unimodal sepanjang gradien sehingga CA akan pantas dan PCA (dari matriks korelasi, menggunakan
scale = TRUE
dalamrda()
panggilan) akan lebih tepat.Pentahbisan terbatas; CCA
Sekarang jika kita memiliki set data kedua yang ingin kita gunakan untuk menjelaskan pola dalam set data spesies pertama, kita harus menggunakan penahbisan terbatas. Seringkali pilihan di sini adalah CCA, tetapi RDA adalah alternatif, seperti RDA setelah transformasi data untuk memungkinkannya menangani data spesies dengan lebih baik.
Kami menggunakan kembali
cca()
fungsi tersebut tetapi kami menyediakan dua kerangka data (X
untuk spesies, danY
untuk variabel penjelas / prediktor) atau formula model yang mencantumkan bentuk model yang ingin kami paskan.Untuk memasukkan semua variabel yang dapat kita gunakan
varechem ~ ., data = varechem
sebagai rumus untuk memasukkan semua variabel - tetapi seperti yang saya katakan di atas, ini bukan ide yang baik secara umumTriplot dari pentahbisan di atas diproduksi menggunakan
plot()
metode iniTentu saja, sekarang tugasnya adalah menentukan variabel mana yang benar-benar penting. Juga perhatikan bahwa kami telah menjelaskan sekitar 2/3 dari varian spesies hanya menggunakan 13 variabel. salah satu masalah dalam menggunakan semua variabel dalam penahbisan ini adalah bahwa kita telah membuat konfigurasi melengkung dalam skor sampel dan spesies, yang murni artefak menggunakan terlalu banyak variabel berkorelasi.
Jika Anda ingin tahu lebih banyak tentang ini, lihat dokumentasi vegan atau buku bagus tentang analisis data ekologi multivarian.
Hubungan dengan regresi
Paling sederhana untuk menggambarkan tautan dengan RDA, tetapi CCA sama saja kecuali semuanya melibatkan jumlah marginal baris dan tabel dua arah sebagai bobot.
Pada intinya, RDA setara dengan penerapan PCA ke matriks nilai pas dari regresi linier berganda yang dipasang untuk masing-masing spesies (respons) nilai (kelimpahan, katakanlah) dengan prediktor yang diberikan oleh matriks variabel penjelas.
Dalam R kita bisa melakukan ini sebagai
Nilai Eigen untuk kedua pendekatan ini sama:
Untuk beberapa alasan saya tidak bisa mendapatkan skor sumbu (memuat) yang cocok, tetapi selalu ini diskalakan (atau tidak) jadi saya perlu melihat dengan tepat bagaimana hal itu dilakukan di sini.
Kami tidak melakukan RDA melalui
rda()
seperti yang saya tunjukkan denganlm()
dll, tetapi kami menggunakan dekomposisi QR untuk bagian model linier dan kemudian SVD untuk bagian PCA. Tetapi langkah-langkah penting adalah sama.sumber
fitted()