Apa "efek tapal kuda" dan / atau "efek lengkungan" dalam analisis PCA / korespondensi?

20

Ada banyak teknik dalam statistik ekologi untuk analisis data eksplorasi data multidimensi. Ini disebut teknik 'penahbisan'. Banyak yang sama atau terkait erat dengan teknik umum di tempat lain dalam statistik. Mungkin contoh prototipikal akan menjadi analisis komponen utama (PCA). Ahli ekologi mungkin menggunakan PCA, dan teknik terkait, untuk mengeksplorasi 'gradien' (Saya tidak sepenuhnya jelas apa gradien itu, tapi saya sudah membaca sedikit tentang itu.)

Pada halaman ini , item terakhir di bawah Principal Components Analysis (PCA) berbunyi:

  • PCA memiliki masalah serius untuk data vegetasi: efek tapal kuda. Hal ini disebabkan oleh kelengkungan distribusi spesies sepanjang gradien. Karena kurva respons spesies biasanya unimodal (yaitu kurva yang sangat kuat), efek tapal kuda sering terjadi.

Lebih jauh ke bawah halaman, di bawah Correspondence Analysis atau Reciprocal Averaging (RA) , itu merujuk pada "efek lengkung":

  • RA memiliki masalah: efek lengkung. Hal ini juga disebabkan oleh nonlinier distribusi sepanjang gradien.
  • Lengkungan tidak seserius efek tapal kuda PCA, karena ujung gradien tidak berbelit-belit.

Adakah yang bisa menjelaskan hal ini? Saya baru-baru ini melihat fenomena ini dalam plot yang merepresentasikan kembali data dalam ruang dimensi yang lebih rendah (yaitu, analisis korespondensi dan analisis faktor).

  1. Apa yang sesuai dengan "gradien" yang lebih umum (yaitu, dalam konteks non-ekologis)?
  2. Jika ini terjadi dengan data Anda, apakah itu "masalah" ("masalah serius")? Untuk apa?
  3. Bagaimana seharusnya seseorang mengartikan output di mana tapal kuda / lengkungan muncul?
  4. Apakah obat perlu diterapkan? Apa? Apakah transformasi data asli akan membantu? Bagaimana jika data tersebut adalah peringkat ordinal?

Jawabannya mungkin ada di halaman lain di situs itu (misalnya, untuk PCA , CA , dan DCA ). Saya telah berusaha untuk menyelesaikannya. Tetapi diskusi tersebut ditulis dalam terminologi ekologi yang cukup asing dan contoh-contoh yang lebih sulit untuk memahami masalah ini.

gung - Reinstate Monica
sumber
1
(+1) Saya menemukan jawaban yang cukup jelas di ordination.okstate.edu/PCA.htm . Penjelasan "curvilinearity" dalam kutipan Anda benar-benar salah - yang membuatnya sangat membingungkan.
whuber
2
Lihat juga Diaconis, dkk. (2008), Horseshoes dalam penskalaan multidimensi dan metode kernel lokal , Ann. Appl. Stat. , vol. 2, tidak. 3, 777-807.
kardinal
Saya sudah mencoba menjawab pertanyaan Anda, tetapi saya tidak yakin seberapa baik saya telah mencapai bahwa melihat saya seorang ahli ekologi dan gradien adalah bagaimana saya memikirkan hal-hal ini.
Pasang kembali Monica - G. Simpson
@whuber: Penjelasan "curvilinearity" yang dikutip mungkin membingungkan dan tidak terlalu jelas, tapi saya tidak berpikir itu "sama sekali salah". Jika kelimpahan spesies sebagai fungsi posisi sepanjang "gradien" yang sebenarnya (menggunakan contoh dari tautan Anda) semuanya linier (mungkin rusak oleh beberapa kebisingan), maka awan titik akan (sekitar) 1-dimensi dan PCA akan menemukannya. Awan titik menjadi bengkok / melengkung karena fungsinya tidak linier. Kasus khusus bergeser Gaussians mengarah ke sepatu kuda.
Amoeba berkata Reinstate Monica
@Amoeba Namun demikian, efek tapal kuda tidak dihasilkan dari kelengkungan gradien spesies: timbul dari nonlinieritas dalam rasio distribusi . Kutipan, dalam mengaitkan efek dengan bentuk gradien itu sendiri, tidak mengidentifikasi penyebab fenomena dengan benar.
whuber

Jawaban:

19

Q1

Ahli ekologi berbicara tentang gradien sepanjang waktu. Ada banyak jenis gradien, tetapi mungkin yang terbaik untuk menganggapnya sebagai kombinasi dari variabel apa pun yang Anda inginkan atau penting untuk respons. Jadi gradien bisa berupa waktu, atau ruang, atau keasaman tanah, atau unsur hara, atau sesuatu yang lebih kompleks seperti kombinasi linear dari serangkaian variabel yang diperlukan oleh respons dengan cara tertentu.

Kita berbicara tentang gradien karena kita mengamati spesies dalam ruang atau waktu dan banyak hal berbeda dengan ruang atau waktu itu.

Q2

Saya sampai pada kesimpulan bahwa dalam banyak kasus sepatu kuda di PCA bukan masalah serius jika Anda memahami bagaimana hal itu muncul dan tidak melakukan hal-hal konyol seperti mengambil PC1 ketika "gradien" sebenarnya diwakili oleh PC1 dan PC2 (well it juga dibagi menjadi PC yang lebih tinggi juga, tapi semoga representasi 2 - d tidak apa - apa).

Di CA saya kira saya berpikiran sama (sekarang terpaksa berpikir sedikit tentang itu). Solusinya dapat membentuk lengkungan ketika tidak ada dimensi ke-2 yang kuat dalam data sehingga versi terlipat dari sumbu pertama, yang memenuhi persyaratan ortogonalitas sumbu CA, menjelaskan lebih banyak "inersia" daripada arah lain dalam data. Ini mungkin lebih serius karena ini merupakan struktur dimana dengan PCA lengkungan hanyalah cara untuk mewakili kelimpahan spesies di lokasi sepanjang gradien dominan tunggal.

Saya tidak pernah mengerti mengapa orang begitu khawatir tentang kesalahan pemesanan sepanjang PC1 dengan sepatu kuda yang kuat. Saya akan melawan bahwa Anda tidak boleh hanya menggunakan PC1 dalam kasus seperti itu, dan kemudian masalahnya hilang; pasangan koordinat pada PC1 dan PC2 menyingkirkan pembalikan pada salah satu dari dua sumbu tersebut.

Q3

Jika saya melihat tapal kuda dalam biplot PCA, saya akan menafsirkan data memiliki gradien dominan tunggal atau arah variasi.

Jika saya melihat lengkungan, saya mungkin akan menyimpulkan hal yang sama, tetapi saya akan sangat berhati-hati untuk mencoba menjelaskan CA axis 2 sama sekali.

Saya tidak akan menerapkan DCA - itu hanya memelintir lengkungan pergi (dalam keadaan terbaik) sehingga Anda tidak melihat keanehan dalam plot 2-d, tetapi dalam banyak kasus itu menghasilkan struktur palsu lainnya seperti berlian atau bentuk terompet ke pengaturan sampel di ruang DCA. Sebagai contoh:

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

masukkan deskripsi gambar di sini

Kami melihat tipikal mengembara dari titik sampel ke arah kiri plot.

Q4

m

Ini akan menyarankan menemukan arah nonlinier dalam ruang dimensi tinggi data. Salah satu metode tersebut adalah kurva utama Hastie & Stuezel, tetapi metode berjenis non-linier lainnya tersedia yang mungkin cukup.

Misalnya, untuk beberapa data patologis

masukkan deskripsi gambar di sini

Kami melihat tapal kuda yang kuat. Kurva utama mencoba untuk memulihkan gradien yang mendasari ini atau pengaturan / pemesanan sampel melalui kurva halus dalam dimensi m data. Gambar di bawah ini menunjukkan bagaimana algoritma iteratif menyatu pada sesuatu yang mendekati gradien yang mendasarinya. (Saya pikir itu mengembara jauh dari data di bagian atas plot sehingga lebih dekat ke data dalam dimensi yang lebih tinggi, dan sebagian karena kriteria konsistensi diri untuk kurva yang akan dinyatakan sebagai kurva utama.)

masukkan deskripsi gambar di sini

Saya memiliki lebih banyak detail termasuk kode pada posting blog saya dari mana saya mengambil gambar-gambar itu. Tapi poin utama di sini adalah kurva utama dengan mudah memulihkan pemesanan sampel yang diketahui sedangkan PC1 atau PC2 sendiri tidak.

Dalam kasus PCA, adalah umum untuk menerapkan transformasi dalam ekologi. Transformasi populer adalah transformasi yang dapat mengembalikan beberapa jarak non-Euclidean ketika jarak Euclidean dihitung pada data yang diubah. Misalnya, jarak Hellinger adalah

DHellsayanger(x1,x2)=j=1hal[y1jy1+-y2jy2+]2

ysayajjsayaysaya+saya

Tapal kuda telah lama dikenal dan dipelajari dalam bidang ekologi; beberapa literatur awal (plus tampilan yang lebih modern) ini

Referensi kurva utama utama adalah

Dengan yang pertama menjadi presentasi yang sangat ekologis.

Pasang kembali Monica - G. Simpson
sumber
Terima kasih, Gavin. Pertimbangkan peringkat ordinal 1: 5 dari dataset dengan pertanyaan seperti: "Saya suka dokter saya", & "Saya merasa dokter saya peduli pada saya sebagai pribadi". Ini tidak terdistribusi secara berarti di ruang atau waktu. Apa yang akan menjadi 'gradien' di sini?
gung - Reinstate Monica
Dengan tabel 5x5 & N tinggi, salah satu cara untuk memvisualisasikan data adalah dengan CA. Data bersifat ordinal, tetapi CA tidak mengenalinya; jadi kita dapat memeriksa untuk melihat apakah baris / kolom yang berdekatan lebih dekat daripada yang terpisah jauh. Kedua set titik berada di sepanjang garis yang jelas dalam urutan yang sesuai, tetapi garis kurva sedemikian rupa sehingga ekstrem lebih dekat satu sama lain daripada titik tengah dalam ruang 2D. Bagaimana seharusnya itu ditafsirkan?
gung - Reinstate Monica
CA menemukan pemesanan untuk baris (sampel) dan variabel (cols) yang memaksimalkan dispersi sampel "skor". Ini menemukan variabel laten (kombinasi linear dari variabel) yang memaksimalkan dispersi itu. Kami menyebutnya variabel laten gradien.
Pasang kembali Monica - G. Simpson
Kembali kompresi, maksud Anda lebih dekat satu sama lain pada CA axis 1 atau lebih dekat satu sama lain dalam hal jarak Euclidean dalam skala biplot? Either way, ini benar-benar masalah dalam proyeksi data ke ruang dimensi rendah. DCA mencoba untuk membatalkan efek ini dengan menarik sampel terpisah di ujung sumbu DCA 1 yang telah ditentukan dan mengompresi sampel di dekat sumber. Jadi ya, itu masalah, tapi itu karena tidak fleksibelnya metode untuk menangkap gradien yang mendasarinya dengan tepat. Kita dapat hidup dengannya atau menggunakan pendekatan yang lebih fleksibel (setidaknya dalam ekologi).
Pasang kembali Monica - G. Simpson
1
Jika Anda melihat ini dalam dimensi yang lebih banyak, masalahnya akan hilang. Saya pikir ini hanyalah batas dari metode; tidak apa-apa dalam banyak kasus tetapi gagal dalam kasus lain.
Pasang kembali Monica - G. Simpson