Mengapa sphericity didiagnosis oleh Bartlett's Test berarti PCA tidak pantas?

14

Saya mengerti bahwa Uji Bartlett berkaitan dengan menentukan apakah sampel Anda berasal dari populasi dengan varian yang sama.

Jika sampel berasal dari populasi dengan varian yang sama, maka kami gagal menolak hipotesis nol pengujian, dan karenanya analisis komponen utama tidak sesuai.

Saya tidak yakin di mana letak masalah dengan situasi ini (memiliki set data homoskedastik). Apa masalah dengan memiliki kumpulan data di mana distribusi yang mendasari semua data Anda sama? Saya hanya tidak melihat masalah besar jika kondisi ini ada. Mengapa ini membuat PCA tidak pantas?

Sepertinya saya tidak dapat menemukan informasi yang bagus di mana pun saat online. Adakah yang punya pengalaman menafsirkan mengapa tes ini relevan dengan PCA?

Matt O'Brien
sumber

Jawaban:

15

Menanggapi judul pertanyaan.

1

Bayangkan sekarang bahwa awan multivarian benar-benar berbentuk bola (yaitu, matriks kovariansnya sebanding dengan matriks identitas). Kemudian 1) dimensi arbitrer dapat melayani komponen utama, sehingga solusi PCA tidak unik; 2) semua komponen memiliki varian yang sama (nilai eigen), sehingga PCA tidak dapat membantu mengurangi data.

Bayangkan kasus kedua di mana awan multivariat adalah ellipsoid dengan kelonggaran di sepanjang sumbu variabel (yaitu, matriks kovariansnya adalah diagonal: semua nilai nol kecuali diagonal). Maka rotasi yang tersirat oleh transformasi PCA akan menjadi nol; komponen utama adalah variabel itu sendiri, hanya disusun ulang dan secara potensial ditandatangani kembali. Ini adalah hasil yang sepele: tidak ada PCA diperlukan untuk membuang beberapa dimensi yang lemah untuk mengurangi data.


1

ttnphns
sumber
13

Tampaknya ada dua tes yang disebut tes Bartlett . Yang Anda referensikan (1937) menentukan apakah sampel Anda berasal dari populasi dengan varian yang sama. Lain muncul untuk menguji apakah matriks korelasi untuk satu set data adalah matriks identitas (1951). Lebih masuk akal bahwa Anda tidak akan menjalankan PCA pada data dengan matriks korelasi identitas, karena Anda hanya akan mendapatkan kembali variabel asli Anda karena sudah tidak berkorelasi. Bandingkan, misalnya,

pengguna42628
sumber
2
+1 Ini memecahkan kebingungan lebih baik daripada jawaban lainnya.
HelloWorld