Bisakah saya melakukan PCA pada tindakan berulang untuk reduksi data?

13

Saya memiliki 3 percobaan masing-masing pada 87 hewan di masing-masing 2 konteks (beberapa data yang hilang; tidak ada data yang hilang = 64 hewan). Dalam konteks, saya memiliki banyak langkah-langkah khusus (waktu untuk masuk, beberapa kali kembali ke tempat tinggal, dll), jadi saya ingin mengembangkan 2 sampai 3 skor perilaku komposit yang menggambarkan perilaku dalam konteks itu (memanggil mereka C1, C2, C3). Saya ingin C1itu berarti hal yang sama pada ketiga percobaan dan 87 hewan, sehingga saya dapat melakukan regresi untuk memeriksa efek usia, jenis kelamin, silsilah, dan hewan individu pada perilaku. Kemudian saya ingin memeriksa bagaimana C1kaitannya dengan skor perilaku dalam konteks lain, dalam usia tertentu. (Pada usia 1, apakah aktivitas dalam konteks 1 sangat memprediksi aktivitas dalam konteks 2?)

Jika ini bukan tindakan berulang, PCA akan bekerja dengan baik - lakukan PCA pada berbagai ukuran konteks, kemudian gunakan PC1, PC2, dll. Untuk memeriksa hubungan (korelasi Spearman) antara PC1 dalam satu konteks dan PC1 (atau 2 atau 3) dalam konteks lain. Masalahnya adalah tindakan berulang, yang jatuh ke dalam replikasi semu. Saya sudah meminta reviewer mengatakan tidak boleh, tetapi saya tidak dapat menemukan referensi yang jelas apakah ini bermasalah ketika melakukan reduksi data.

Alasan saya seperti ini: tindakan yang diulang bukanlah masalah, karena apa yang saya lakukan di PCA adalah murni deskriptif berhadapan dengan tindakan yang asli. Jika saya menyatakan dengan fiat bahwa saya menggunakan waktu untuk memasuki arena sebagai ukuran "keberanian" saya dalam konteks 1, saya akan memiliki ukuran keberanian konteks 1 yang dapat dibandingkan di semua individu di segala usia dan tidak ada yang mau menatap. Jika saya menyatakan dengan fiat bahwa saya akan menggunakan waktu-untuk-masuk waktu-ke-jauh, hal yang sama berlaku. Jadi jika saya menggunakan PCA murni untuk tujuan reduktif, mengapa tidak bisa PC1 (itu mungkin enter finish0,5+ 0,50,28+ 0,63+ 0,02 total waktu ...), yang setidaknya diinformasikan oleh berbagai tindakan saya alih-alih menebak bahwa waktu untuk masuk adalah sifat yang umumnya informatif dan representatif?

(Catatan saya tidak tertarik dengan struktur tindakan yang mendasarinya ... pertanyaan saya adalah tentang apa yang kita tafsirkan sebagai perilaku spesifik konteks. "Jika saya menggunakan konteks 1 dan menyimpulkan bahwa Harry aktif dibandingkan dengan hewan lain, apakah saya melihat Harry aktif dalam konteks 2? Jika dia mengubah apa yang kita tafsirkan sebagai aktivitas dalam konteks 1 ketika dia semakin tua, apakah dia juga mengubah aktivitas konteksnya 2?)

Saya telah melihat PARAFAC, dan saya telah melihat SEM, dan saya tidak yakin salah satu dari pendekatan ini lebih baik atau lebih sesuai untuk ukuran sampel saya. Adakah yang bisa menimbang? Terima kasih.

Leann
sumber
Apakah saya mengerti Anda benar bahwa Anda memiliki 2 faktor dalam-subjek: 1) konteks, yang berbeda dengan beberapa kondisi eksperimental (mis. Eksperimen dalam ruangan dan eksperimen luar ruangan), 2) percobaan, yang hanya merupakan pengulangan, upaya percobaan. Dan Anda ingin melakukan PCA di setiap kondisi, tetapi itu menghentikan Anda bahwa Anda telah melakukan bukan hanya satu tetapi beberapa percobaan percobaan.
ttnphns
Dua konteks adalah dua tes terpisah, dan langkah-langkah yang diambil masing-masing berbeda. Yang mengatakan, ya, Anda mengerti situasi saya.
Leann
Bagaimana dengan menghindari masalah dan menjalankan PCA pada sarana di ketiga uji coba?
Gala

Jawaban:

7

Anda dapat melihat Analisis Faktor Berganda . Ini dapat diimplementasikan dalam R dengan FactoMineR.

MEMPERBARUI:

Singkatnya, Leann mengusulkan - betapapun lama - untuk melakukan PCA pada dataset dengan tindakan berulang. Jika saya memahami struktur dataset-nya dengan benar, untuk 'konteks' yang diberikan, dia memiliki x'ukuran spesifik' binatang (waktu untuk masuk, berapa kali kembali ke penampungan, dll) matriks. Masing-masing dari 64 hewan (yang tidak ketinggalan obs.) Diikuti tiga kali. Katakanlah dia memiliki 10 'langkah-langkah khusus', sehingga ia kemudian akan memiliki tiga 64 × 10 matriks pada perilaku binatang (kita dapat memanggil matriks X1, X2, X3). Untuk menjalankan PCA pada tiga matriks secara bersamaan, ia harus 'mendayung mengikat' tiga matriks (mis.PCA(rbind(X1,X2,X3))). Tetapi ini mengabaikan fakta bahwa pengamatan pertama dan ke 64 dilakukan pada hewan yang sama. Untuk menghindari masalah ini, dia dapat 'kolom mengikat' tiga matriks dan menjalankannya melalui Analisis Faktor Berganda. MFA adalah cara yang berguna untuk menganalisis beberapa set variabel yang diukur pada individu atau objek yang sama pada titik waktu yang berbeda. Dia akan dapat mengekstraksi komponen prinsip dari MFA dengan cara yang sama seperti di PCA tetapi akan memiliki satu koordinat untuk setiap hewan. Benda-benda hewan sekarang akan ditempatkan di ruang kompromi multivariat yang dibatasi oleh tiga pengamatannya.

Dia akan dapat menjalankan analisis menggunakan paket FactoMineR dalam R. Contoh kode akan terlihat seperti:

df=data.frame(X1, X2, X3)
mfa1=MFA(df, group=c(10, 10, 10), type=c("s", "s", "s"), 
 name.group=c("Observation 1", "Observation 2", "Observation 3")) 
 #presuming the data is quantitative and needs to be scaled to unit variance

Juga, alih-alih mengekstraksi tiga komponen pertama dari MFA dan menempatkannya melalui regresi berganda, ia mungkin berpikir tentang memproyeksikan variabel penjelasnya langsung ke MFA sebagai 'tabel tambahan' (lihat ?FactoMineR). Pendekatan lain adalah menghitung matriks jarak Euclidean dari koordinat objek dari MFA (misalnya dist1=vegdist(mfa1$ind$coord, "euc")) dan memasukkannya ke dalam RDA dengan dist1fungsi variabel-variabel hewan tertentu (misalnya rda(dist1~age+sex+pedigree)menggunakan paket vegan).

Kyle
sumber
2
Hai Kyle, terima kasih atas jawaban Anda. Namun, jawaban yang pada dasarnya terdiri dari sedikit lebih dari satu tautan, atau yang hanya sekitar satu kalimat umumnya tidak dianggap sebagai jawaban, melainkan komentar. Khususnya, jawaban hanya tautan menderita rot-link, jadi jawaban harus memiliki informasi yang cukup untuk berguna bahkan jika tautan tidak lagi berfungsi. Bisakah Anda memperluas jawaban Anda sedikit lagi, mungkin memberikan garis besar yang sangat singkat tentang apa itu / bagaimana hubungannya dengan analisis faktor secara lebih umum?
Glen_b -Reinstate Monica
(+1) Saya menyadari ini posting lama, tetapi jawaban ini sangat berguna! Mungkin rujukan harus ditambahkan sepenuhnya jika tautannya mati: Abdi Hervé, Williams Lynne J., Valentin Domininique. Analisis beberapa faktor: analisis komponen utama untuk set data multiblock dan multiblock. WIREs Comp Stat 2013, 5: 149-179. doi: 10.1002 / wics.1246
Frans Rodenburg
4

Merupakan hal yang biasa untuk menggunakan PCA ketika menganalisis tindakan berulang (misalnya, digunakan untuk menganalisis data penjualan, harga saham, dan nilai tukar) Logikanya adalah seperti yang Anda artikulasikan (yaitu, pembenarannya adalah bahwa PCA adalah alat reduksi data bukan alat inferensial ).

Salah satu publikasi oleh ahli statistik yang cukup baik adalah: Bradlow, ET (2002). " Menjelajahi set data berulang-ulang untuk fitur utama menggunakan Analisis Komponen Utama. " Jurnal Penelitian dalam Pemasaran 19: 167-179.

Tim
sumber