Saya memiliki dataset variabel diskrit (ordinal, meristik, dan nominal) yang menggambarkan karakter sayap morfologis pada beberapa spesies serangga yang terkait erat. Yang ingin saya lakukan adalah melakukan semacam analisis yang akan memberi saya representasi visual tentang kesamaan spesies yang berbeda berdasarkan karakteristik morfologis. Hal pertama yang muncul di kepala saya adalah PCA (ini adalah jenis visualisasi yang ingin saya buat), tetapi setelah melihatnya (terutama pertanyaan lain seperti: Dapatkah analisis komponen utama diterapkan pada kumpulan data yang berisi campuran kontinu dan variabel kategori?), tampaknya PCA mungkin tidak sesuai untuk data diskrit (PCA digunakan dalam jenis studi ini dalam literatur, tetapi selalu dengan data kontinu). Mengabaikan latar belakang statistik mengapa data ini tidak tepat, PCA memang memberi saya hasil yang relatif sempurna sehubungan dengan pertanyaan biologis saya (kelompok bunga hibrida jatuh tepat di tengah-tengah kelompok ayah mereka).
Saya juga mencoba beberapa analisis korespondensi untuk memenuhi statistik (setidaknya sejauh pemahaman saya), tetapi saya tidak bisa mendapatkan plot yang analog dengan yang saya dapatkan dengan PCA, di mana pengamatan saya (individu biologis) dipisahkan dengan warna untuk menunjukkan pengelompokan yang berbeda (spesies yang berbeda, secara biologis). Tampaknya analisis ini bertujuan untuk menggambarkan bagaimana variabel (di sini, karakteristik morfologis saya) saling terkait, bukan dengan pengamatan individu. Dan ketika saya memplot pengamatan yang diwarnai oleh kelompok, saya hanya mendapatkan nilai tunggal (mungkin rata-rata) yang menggambarkan seluruh rangkaian individu. Saya telah melakukan analisis dalam R, jadi mungkin saya juga tidak cukup R-savy untuk mendapatkan ide saya tentang plot untuk bekerja.
Apakah saya benar dalam mencoba analisis semacam ini dengan data saya, atau apakah saya keluar jalur? Jika Anda tidak tahu, keahlian statistik saya terbatas, sehingga persamaan yang terjadi di bawah analisis ini jauh di atas kepala saya. Saya mencoba untuk melakukan analisis ini sepenuhnya secara deskriptif (saya tidak perlu melakukan lagi angka hilir), dan saya sudah membaca bahwa jika ini masalahnya, PCA akan cukup, tetapi ingin memastikan saya tidak melanggar terlalu banyak asumsi statistik.
Jawaban:
Tergantung sedikit pada tujuan Anda, tetapi jika Anda mencari alat visualisasi ada trik dengan menerapkan penskalaan multidimensi pada output kedekatan hutan acak yang dapat menghasilkan gambar yang cantik dan akan bekerja untuk campuran data kategorikal dan kontinu. Di sini Anda akan mengklasifikasikan spesies sesuai dengan prediksi Anda. Tapi - dan ini peringatan besar - saya tidak tahu apakah ada yang benar-benar tahu apa arti dari output untuk visualisasi ini.
Alternatif lain mungkin untuk menerapkan penskalaan multidimensi untuk sesuatu seperti kesamaan Gower.
Ada pertanyaan yang menggantung - apa tujuan utama Anda? Pertanyaan apa yang ingin Anda jawab? Saya suka teknik-teknik ini sebagai alat eksplorasi yang mungkin mengarahkan Anda untuk bertanya lebih banyak dan lebih baik, tetapi saya tidak yakin apa yang mereka jelaskan atau katakan sendiri.
Mungkin saya terlalu banyak membaca pertanyaan Anda, tetapi jika Anda ingin menjelajahi variabel prediktor mana yang memiliki nilai untuk hibrida yang berada di antara dua spesies murni, Anda mungkin lebih baik membangun model untuk memperkirakan nilai untuk variabel prediktor yang menyebabkan untuk spesies dan hibrida secara langsung. Jika Anda ingin mengukur bagaimana variabel terkait satu sama lain, mungkin buat matriks korelasi - dan ada banyak visualisasi yang rapi untuk ini.
sumber