Apakah ada tes / teknik / metode untuk membandingkan dekomposisi komponen utama antara sampel?

8

Apakah ada cara metodis untuk membandingkan arah, besaran, dll dari hasil PCA untuk sampel berbeda yang diambil dari populasi yang sama?

Saya membiarkan sifat tes ini dengan sengaja tidak jelas karena saya ingin mendengar semua berbagai kemungkinan ... misalnya mungkin ada (dan saya berspekulasi di sini) tes yang membandingkan ukuran komponen utama pertama, atau Tes membandingkan arah komponen utama, atau ada semacam ukuran jarak antara hasil PCA dan statistik uji untuk kesetaraan mereka.

Sejauh kasus penggunaan berjalan, saya tidak ada dalam pikiran. Hanya karena penasaran, mungkin sebagai teknik eksplorasi.

shadowtalker
sumber
Apakah Anda membayangkan dua set sampel yang mengisi ruang yang sama (yaitu memiliki fitur yang sama)? Jadi pada dasarnya, dua titik awan yang berbeda, apakah itu benar? Apakah Anda berasumsi bahwa awan memiliki jumlah titik yang sama, atau belum tentu?
amoeba
Ya, maaf, ini adalah dua sampel dari populasi yang sama. Jika jawaban berbeda untuk sampel dengan ukuran yang tidak sama, saya ingin mengetahuinya.
shadowtalker
Googling dengan istilah "analisis faktor multigroup" memberikan banyak tautan, ini adalah area yang luas (dan saya pikir baik) dibahas. Jika saya ingat dengan benar bahkan ada beberapa perangkat lunak khusus
Gottfried Helms

Jawaban:

6

Jadi sejauh yang saya mengerti, Anda membayangkan bahwa Anda memiliki dua awan masing-masing poin, dalam ruang dimensi- ; Anda melakukan PCA pada setiap cloud secara terpisah dan kemudian ingin membandingkan hasil PCA antara cloud, dan untuk menguji perbedaan yang signifikan dalam beberapa fitur PCA yang lebih penting.nd

Saya tidak berpikir ada tes standar untuk tujuan ini. Untuk setiap pertanyaan spesifik, seseorang mungkin dapat menemukan beberapa metode atau tes, tetapi pertanyaan Anda agak terlalu luas untuk mencoba membuat tes yang mungkin.

Namun, satu pendekatan umum yang muncul dalam pikiran adalah dengan menggunakan tes permutasi. Katakanlah, Anda ingin menguji apakah PC1 di kedua set sampel ("awan") berbeda. Anda dapat menghitung sudut antara mereka. Kemudian Anda mengumpulkan semua poin bersama dalam satu cloud besar, secara acak membaginya menjadi dua cloud dengan ukuran (ini biasanya disebut "shuffle the label"), jalankan dua PCA dan hitung antara dua PC1s. Pemisahan acak dapat dilakukan berkali-kali (katakanlah, kali), menghasilkan distribusi diharapkan dalam hipotesis nol tidak ada perbedaan antara awan. Maka Anda cukup membandingkan Anda yang sebenarnya dengan distribusi ini dan mendapatkanθ2nnθ10000θθhal-nilai.

Pendekatan yang sama dapat digunakan untuk membandingkan misalnya nilai eigen terbesar. Atau nilai eigen terkecil. Atau sebenarnya hampir semua yang ingin Anda bandingkan.

Terlepas dari itu, jika Anda ingin statistik uji untuk "kesetaraan hasil PCA" secara keseluruhan, maka mungkin Anda hanya perlu menggunakan tes yang membandingkan dua matriks kovarians (tanpa melakukan PCA sama sekali). Misalnya , M-test Box (yang merupakan generalisasi multivariat dari uji Bartlett untuk persamaan varian).

amuba
sumber
+1 yang mungkin lebih masuk akal untuk membandingkan matriks kovarians secara langsung
Andrew M
1
Membaca ulang jawaban Anda, terpikir oleh saya bahwa sudut rata-rata antara sumbu utama correpsondjng mungkin kira-kira seperti apa yang saya kejar.
shadowtalker
1

katakanlah Anda memiliki sampel set2 1 dan 2, dan Anda menemukan komponen 1 sampai n prinsipnya yang mampu memetakan 90% informasi (n mungkin berbeda untuk keduanya, dan 90 adalah sewenang-wenang).

Anda dapat menghitung berapa banyak informasi dalam set1 dapat dipertahankan setelah memetakan ruang komponen utama dan kembali. Tetapkan ambang batas untuk berapa banyak informasi yang ingin Anda hilangkan sebelum mendeklarasikan set baru cukup berbeda sehingga layak mendapatkan komponen prinsipnya sendiri.

Dan Erez
sumber