Apakah ada cara metodis untuk membandingkan arah, besaran, dll dari hasil PCA untuk sampel berbeda yang diambil dari populasi yang sama?
Saya membiarkan sifat tes ini dengan sengaja tidak jelas karena saya ingin mendengar semua berbagai kemungkinan ... misalnya mungkin ada (dan saya berspekulasi di sini) tes yang membandingkan ukuran komponen utama pertama, atau Tes membandingkan arah komponen utama, atau ada semacam ukuran jarak antara hasil PCA dan statistik uji untuk kesetaraan mereka.
Sejauh kasus penggunaan berjalan, saya tidak ada dalam pikiran. Hanya karena penasaran, mungkin sebagai teknik eksplorasi.
hypothesis-testing
pca
variance
inference
shadowtalker
sumber
sumber
Jawaban:
Jadi sejauh yang saya mengerti, Anda membayangkan bahwa Anda memiliki dua awan masing-masing poin, dalam ruang dimensi- ; Anda melakukan PCA pada setiap cloud secara terpisah dan kemudian ingin membandingkan hasil PCA antara cloud, dan untuk menguji perbedaan yang signifikan dalam beberapa fitur PCA yang lebih penting.n d
Saya tidak berpikir ada tes standar untuk tujuan ini. Untuk setiap pertanyaan spesifik, seseorang mungkin dapat menemukan beberapa metode atau tes, tetapi pertanyaan Anda agak terlalu luas untuk mencoba membuat tes yang mungkin.
Namun, satu pendekatan umum yang muncul dalam pikiran adalah dengan menggunakan tes permutasi. Katakanlah, Anda ingin menguji apakah PC1 di kedua set sampel ("awan") berbeda. Anda dapat menghitung sudut antara mereka. Kemudian Anda mengumpulkan semua poin bersama dalam satu cloud besar, secara acak membaginya menjadi dua cloud dengan ukuran (ini biasanya disebut "shuffle the label"), jalankan dua PCA dan hitung antara dua PC1s. Pemisahan acak dapat dilakukan berkali-kali (katakanlah, kali), menghasilkan distribusi diharapkan dalam hipotesis nol tidak ada perbedaan antara awan. Maka Anda cukup membandingkan Anda yang sebenarnya dengan distribusi ini dan mendapatkanθ 2 n n θ 10000 θ θ hal -nilai.
Pendekatan yang sama dapat digunakan untuk membandingkan misalnya nilai eigen terbesar. Atau nilai eigen terkecil. Atau sebenarnya hampir semua yang ingin Anda bandingkan.
Terlepas dari itu, jika Anda ingin statistik uji untuk "kesetaraan hasil PCA" secara keseluruhan, maka mungkin Anda hanya perlu menggunakan tes yang membandingkan dua matriks kovarians (tanpa melakukan PCA sama sekali). Misalnya , M-test Box (yang merupakan generalisasi multivariat dari uji Bartlett untuk persamaan varian).
sumber
katakanlah Anda memiliki sampel set2 1 dan 2, dan Anda menemukan komponen 1 sampai n prinsipnya yang mampu memetakan 90% informasi (n mungkin berbeda untuk keduanya, dan 90 adalah sewenang-wenang).
Anda dapat menghitung berapa banyak informasi dalam set1 dapat dipertahankan setelah memetakan ruang komponen utama dan kembali. Tetapkan ambang batas untuk berapa banyak informasi yang ingin Anda hilangkan sebelum mendeklarasikan set baru cukup berbeda sehingga layak mendapatkan komponen prinsipnya sendiri.
sumber