Data diskrit & alternatif untuk PCA

9

Saya memiliki dataset variabel diskrit (ordinal, meristik, dan nominal) yang menggambarkan karakter sayap morfologis pada beberapa spesies serangga yang terkait erat. Yang ingin saya lakukan adalah melakukan semacam analisis yang akan memberi saya representasi visual tentang kesamaan spesies yang berbeda berdasarkan karakteristik morfologis. Hal pertama yang muncul di kepala saya adalah PCA (ini adalah jenis visualisasi yang ingin saya buat), tetapi setelah melihatnya (terutama pertanyaan lain seperti: Dapatkah analisis komponen utama diterapkan pada kumpulan data yang berisi campuran kontinu dan variabel kategori?), tampaknya PCA mungkin tidak sesuai untuk data diskrit (PCA digunakan dalam jenis studi ini dalam literatur, tetapi selalu dengan data kontinu). Mengabaikan latar belakang statistik mengapa data ini tidak tepat, PCA memang memberi saya hasil yang relatif sempurna sehubungan dengan pertanyaan biologis saya (kelompok bunga hibrida jatuh tepat di tengah-tengah kelompok ayah mereka).

Saya juga mencoba beberapa analisis korespondensi untuk memenuhi statistik (setidaknya sejauh pemahaman saya), tetapi saya tidak bisa mendapatkan plot yang analog dengan yang saya dapatkan dengan PCA, di mana pengamatan saya (individu biologis) dipisahkan dengan warna untuk menunjukkan pengelompokan yang berbeda (spesies yang berbeda, secara biologis). Tampaknya analisis ini bertujuan untuk menggambarkan bagaimana variabel (di sini, karakteristik morfologis saya) saling terkait, bukan dengan pengamatan individu. Dan ketika saya memplot pengamatan yang diwarnai oleh kelompok, saya hanya mendapatkan nilai tunggal (mungkin rata-rata) yang menggambarkan seluruh rangkaian individu. Saya telah melakukan analisis dalam R, jadi mungkin saya juga tidak cukup R-savy untuk mendapatkan ide saya tentang plot untuk bekerja.

Apakah saya benar dalam mencoba analisis semacam ini dengan data saya, atau apakah saya keluar jalur? Jika Anda tidak tahu, keahlian statistik saya terbatas, sehingga persamaan yang terjadi di bawah analisis ini jauh di atas kepala saya. Saya mencoba untuk melakukan analisis ini sepenuhnya secara deskriptif (saya tidak perlu melakukan lagi angka hilir), dan saya sudah membaca bahwa jika ini masalahnya, PCA akan cukup, tetapi ingin memastikan saya tidak melanggar terlalu banyak asumsi statistik.

JD
sumber
1
Anda harus bisa mendapatkan jenis plot yang Anda inginkan dengan analisis korespondensi ganda. Jika Anda dapat memberi kami tautan ke data Anda, kami bisa melihatnya. Penskalaan multidimensi adalah kemungkinan lain, tetapi MCA dapat dilihat sebagai semacam penskalaan multidimensi
kjetil b halvorsen
Klaster kelas laten adalah opsi metodologis lainnya. Pada dasarnya, LCA menciptakan 'model' heterogenitas dalam residu yang digunakan untuk mengelompok. Secara historis ada 2 aliran penelitian luas dalam literatur, keduanya sosiologis. LCA asli tanggal kembali ke Lazarsfeld di Columbia pada 50-an, tidak diawasi dan menggunakan data kategorikal-R's poLCA adalah contohnya. Model campuran hingga yang lebih diawasi baru-baru ini untuk LCA telah dikembangkan. Saya tidak mengetahui modul R tetapi ada perangkat lunak komersial murah yang melakukannya ( Latent Gold ). Situs web LG memiliki makalah yang bagus tentang LCA
Mike Hunter

Jawaban:

1

Tergantung sedikit pada tujuan Anda, tetapi jika Anda mencari alat visualisasi ada trik dengan menerapkan penskalaan multidimensi pada output kedekatan hutan acak yang dapat menghasilkan gambar yang cantik dan akan bekerja untuk campuran data kategorikal dan kontinu. Di sini Anda akan mengklasifikasikan spesies sesuai dengan prediksi Anda. Tapi - dan ini peringatan besar - saya tidak tahu apakah ada yang benar-benar tahu apa arti dari output untuk visualisasi ini.

Alternatif lain mungkin untuk menerapkan penskalaan multidimensi untuk sesuatu seperti kesamaan Gower.

Ada pertanyaan yang menggantung - apa tujuan utama Anda? Pertanyaan apa yang ingin Anda jawab? Saya suka teknik-teknik ini sebagai alat eksplorasi yang mungkin mengarahkan Anda untuk bertanya lebih banyak dan lebih baik, tetapi saya tidak yakin apa yang mereka jelaskan atau katakan sendiri.

Mungkin saya terlalu banyak membaca pertanyaan Anda, tetapi jika Anda ingin menjelajahi variabel prediktor mana yang memiliki nilai untuk hibrida yang berada di antara dua spesies murni, Anda mungkin lebih baik membangun model untuk memperkirakan nilai untuk variabel prediktor yang menyebabkan untuk spesies dan hibrida secara langsung. Jika Anda ingin mengukur bagaimana variabel terkait satu sama lain, mungkin buat matriks korelasi - dan ada banyak visualisasi yang rapi untuk ini.

Patrick Caldon
sumber
Terima kasih atas masukannya. Pada akhirnya, yang saya inginkan dari analisis ini adalah untuk memiliki ukuran kuantitatif kesamaan beberapa spesies dibandingkan dengan yang lain (saya memiliki dua spesies yang hanya berdasarkan pada penampilan gestalt seperti spesies lain yang terkait erat, tetapi secara genetik tampak mirip dengan spesies yang berbeda, menyarankan hibridisasi kuno). Poin utama dari pertanyaan penelitian ini adalah untuk menyelidiki genetika kelompok, dan analisis morfologis ini hanya akan menambah keseluruhan cerita biologis. Apakah penskalaan multidimensi ini mengarah pada visualisasi yang mirip dengan PCA?
JD
Anda mendapatkan visualisasi yang serupa. Ide / intuisi MDS adalah untuk membangun pemetaan dari ruang dimensi tinggi (untuk Anda ruang karakteristik morfologis) ke beberapa ruang dimensi rendah (seperti bidang datar 2D) sehingga jarak dalam ruang dimensi tinggi adalah " sama "dengan ruang dimensi rendah. Anda kemudian dapat merencanakan bidang datar 2D. Tapi itu bergantung pada mendapatkan metrik jarak untuk ruang dimensi tinggi dari suatu tempat.
Patrick Caldon