Ada banyak teknik dalam statistik ekologi untuk analisis data eksplorasi data multidimensi. Ini disebut teknik 'penahbisan'. Banyak yang sama atau terkait erat dengan teknik umum di tempat lain dalam statistik. Mungkin contoh prototipikal akan menjadi analisis komponen utama (PCA). Ahli ekologi mungkin menggunakan PCA, dan teknik terkait, untuk mengeksplorasi 'gradien' (Saya tidak sepenuhnya jelas apa gradien itu, tapi saya sudah membaca sedikit tentang itu.)
Pada halaman ini , item terakhir di bawah Principal Components Analysis (PCA) berbunyi:
- PCA memiliki masalah serius untuk data vegetasi: efek tapal kuda. Hal ini disebabkan oleh kelengkungan distribusi spesies sepanjang gradien. Karena kurva respons spesies biasanya unimodal (yaitu kurva yang sangat kuat), efek tapal kuda sering terjadi.
Lebih jauh ke bawah halaman, di bawah Correspondence Analysis atau Reciprocal Averaging (RA) , itu merujuk pada "efek lengkung":
- RA memiliki masalah: efek lengkung. Hal ini juga disebabkan oleh nonlinier distribusi sepanjang gradien.
- Lengkungan tidak seserius efek tapal kuda PCA, karena ujung gradien tidak berbelit-belit.
Adakah yang bisa menjelaskan hal ini? Saya baru-baru ini melihat fenomena ini dalam plot yang merepresentasikan kembali data dalam ruang dimensi yang lebih rendah (yaitu, analisis korespondensi dan analisis faktor).
- Apa yang sesuai dengan "gradien" yang lebih umum (yaitu, dalam konteks non-ekologis)?
- Jika ini terjadi dengan data Anda, apakah itu "masalah" ("masalah serius")? Untuk apa?
- Bagaimana seharusnya seseorang mengartikan output di mana tapal kuda / lengkungan muncul?
- Apakah obat perlu diterapkan? Apa? Apakah transformasi data asli akan membantu? Bagaimana jika data tersebut adalah peringkat ordinal?
Jawabannya mungkin ada di halaman lain di situs itu (misalnya, untuk PCA , CA , dan DCA ). Saya telah berusaha untuk menyelesaikannya. Tetapi diskusi tersebut ditulis dalam terminologi ekologi yang cukup asing dan contoh-contoh yang lebih sulit untuk memahami masalah ini.
sumber
Jawaban:
Q1
Ahli ekologi berbicara tentang gradien sepanjang waktu. Ada banyak jenis gradien, tetapi mungkin yang terbaik untuk menganggapnya sebagai kombinasi dari variabel apa pun yang Anda inginkan atau penting untuk respons. Jadi gradien bisa berupa waktu, atau ruang, atau keasaman tanah, atau unsur hara, atau sesuatu yang lebih kompleks seperti kombinasi linear dari serangkaian variabel yang diperlukan oleh respons dengan cara tertentu.
Kita berbicara tentang gradien karena kita mengamati spesies dalam ruang atau waktu dan banyak hal berbeda dengan ruang atau waktu itu.
Q2
Saya sampai pada kesimpulan bahwa dalam banyak kasus sepatu kuda di PCA bukan masalah serius jika Anda memahami bagaimana hal itu muncul dan tidak melakukan hal-hal konyol seperti mengambil PC1 ketika "gradien" sebenarnya diwakili oleh PC1 dan PC2 (well it juga dibagi menjadi PC yang lebih tinggi juga, tapi semoga representasi 2 - d tidak apa - apa).
Di CA saya kira saya berpikiran sama (sekarang terpaksa berpikir sedikit tentang itu). Solusinya dapat membentuk lengkungan ketika tidak ada dimensi ke-2 yang kuat dalam data sehingga versi terlipat dari sumbu pertama, yang memenuhi persyaratan ortogonalitas sumbu CA, menjelaskan lebih banyak "inersia" daripada arah lain dalam data. Ini mungkin lebih serius karena ini merupakan struktur dimana dengan PCA lengkungan hanyalah cara untuk mewakili kelimpahan spesies di lokasi sepanjang gradien dominan tunggal.
Saya tidak pernah mengerti mengapa orang begitu khawatir tentang kesalahan pemesanan sepanjang PC1 dengan sepatu kuda yang kuat. Saya akan melawan bahwa Anda tidak boleh hanya menggunakan PC1 dalam kasus seperti itu, dan kemudian masalahnya hilang; pasangan koordinat pada PC1 dan PC2 menyingkirkan pembalikan pada salah satu dari dua sumbu tersebut.
Q3
Jika saya melihat tapal kuda dalam biplot PCA, saya akan menafsirkan data memiliki gradien dominan tunggal atau arah variasi.
Jika saya melihat lengkungan, saya mungkin akan menyimpulkan hal yang sama, tetapi saya akan sangat berhati-hati untuk mencoba menjelaskan CA axis 2 sama sekali.
Saya tidak akan menerapkan DCA - itu hanya memelintir lengkungan pergi (dalam keadaan terbaik) sehingga Anda tidak melihat keanehan dalam plot 2-d, tetapi dalam banyak kasus itu menghasilkan struktur palsu lainnya seperti berlian atau bentuk terompet ke pengaturan sampel di ruang DCA. Sebagai contoh:
Kami melihat tipikal mengembara dari titik sampel ke arah kiri plot.
Q4
Ini akan menyarankan menemukan arah nonlinier dalam ruang dimensi tinggi data. Salah satu metode tersebut adalah kurva utama Hastie & Stuezel, tetapi metode berjenis non-linier lainnya tersedia yang mungkin cukup.
Misalnya, untuk beberapa data patologis
Kami melihat tapal kuda yang kuat. Kurva utama mencoba untuk memulihkan gradien yang mendasari ini atau pengaturan / pemesanan sampel melalui kurva halus dalam dimensi m data. Gambar di bawah ini menunjukkan bagaimana algoritma iteratif menyatu pada sesuatu yang mendekati gradien yang mendasarinya. (Saya pikir itu mengembara jauh dari data di bagian atas plot sehingga lebih dekat ke data dalam dimensi yang lebih tinggi, dan sebagian karena kriteria konsistensi diri untuk kurva yang akan dinyatakan sebagai kurva utama.)
Saya memiliki lebih banyak detail termasuk kode pada posting blog saya dari mana saya mengambil gambar-gambar itu. Tapi poin utama di sini adalah kurva utama dengan mudah memulihkan pemesanan sampel yang diketahui sedangkan PC1 atau PC2 sendiri tidak.
Dalam kasus PCA, adalah umum untuk menerapkan transformasi dalam ekologi. Transformasi populer adalah transformasi yang dapat mengembalikan beberapa jarak non-Euclidean ketika jarak Euclidean dihitung pada data yang diubah. Misalnya, jarak Hellinger adalah
Tapal kuda telah lama dikenal dan dipelajari dalam bidang ekologi; beberapa literatur awal (plus tampilan yang lebih modern) ini
Referensi kurva utama utama adalah
Dengan yang pertama menjadi presentasi yang sangat ekologis.
sumber