Saya punya beberapa pertanyaan singkat tentang PCA:
- Apakah PCA berasumsi bahwa dataset adalah Gaussian?
- Apa yang terjadi ketika saya menerapkan PCA ke data non-linear yang inheren?
Diberikan dataset, prosesnya adalah untuk menormalkan rata-rata, mengatur varians ke 1, mengambil SVD, mengurangi peringkat, dan akhirnya memetakan dataset ke dalam ruang pengurangan peringkat yang baru. Di ruang baru, setiap dimensi sesuai dengan "arah" varians maksimal.
- Tetapi apakah korelasi dataset itu di ruang baru selalu nol, atau apakah itu hanya berlaku untuk data yang secara inheren Gaussian?
Misalkan saya memiliki dua set data, "A" dan "B", di mana "A" sesuai dengan poin sampel yang diambil secara acak dari Gaussian, sedangkan "B" sesuai dengan poin yang diambil secara acak dari sampel distribusi lain (misalnya Poisson).
- Bagaimana PCA (A) dibandingkan dengan PCA (B)?
- Dengan melihat titik-titik di ruang baru, bagaimana saya menentukan bahwa PCA (A) sesuai dengan poin sampel dari Gaussian, sedangkan PCA (B) sesuai dengan poin sampel dari Poisson?
- Apakah korelasi poin dalam "A" 0?
- Apakah korelasi poin dalam "B" juga 0?
- Lebih penting lagi, apakah saya mengajukan pertanyaan "benar"?
- Haruskah saya melihat korelasinya, atau apakah ada metrik lain yang harus saya pertimbangkan?
Jawaban:
Anda sudah memiliki beberapa jawaban yang baik di sini (+1 untuk keduanya @ Cam.Davidson.Pilon & @MichaelChernick). Biarkan saya membuang beberapa poin yang membantu saya untuk memikirkan masalah ini.
Pertama, PCA beroperasi di atas matriks korelasi. Jadi, menurut saya pertanyaan penting adalah apakah masuk akal menggunakan matriks korelasi untuk membantu Anda berpikir tentang data Anda. Sebagai contoh, korelasi product-moment Pearson menilai hubungan linier antara dua variabel; jika variabel Anda terkait, tetapi tidak linear, korelasinya bukan metrik yang ideal untuk mengindeks kekuatan hubungan. ( Berikut ini adalah diskusi yang bagus tentang CV tentang data korelasi dan tidak normal.)
Kedua, saya pikir cara termudah untuk memahami apa yang terjadi dengan PCA adalah Anda hanya memutar sumbu Anda. Anda dapat melakukan lebih banyak hal, tentu saja, dan sayangnya PCA menjadi bingung dengan analisis faktor (yang tentunya memiliki lebih banyak hal yang terjadi). Namun demikian, PCA tua biasa tanpa lonceng dan peluit, dapat dianggap sebagai berikut:
Ini bukan metafora yang sempurna untuk PCA (misalnya, kami tidak mengubah skala varian menjadi 1). Tetapi memberi orang ide dasar. Intinya sekarang adalah untuk menggunakan gambar itu untuk memikirkan bagaimana hasilnya jika data tidak Gaussian untuk memulai; itu akan membantu Anda memutuskan apakah proses ini layak dilakukan. Semoga itu bisa membantu.
sumber
Saya dapat memberikan solusi parsial dan menunjukkan jawaban untuk Andaw1 w2 Xw1 Xw2 X
paragraf keduasumber
Tidak ada linearitas atau normalitas yang diasumsikan dalam PCA. Idenya adalah hanya menguraikan variasi dalam dataset p-dimensi menjadi komponen ortogonal yang dipesan sesuai dengan jumlah varian yang dijelaskan.
sumber
Baca halaman 7 di sini:
http://www.cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf
mereka mencatat bahwa PCA mengasumsikan bahwa distribusi apa pun yang kami jelaskan dapat dijelaskan dengan rata-rata (nol) dan varian saja, yang mereka katakan hanya distribusi normal.
(Pada dasarnya selain jawaban Cam, tapi aku tidak punya cukup reputasi untuk berkomentar:)
sumber
Sejauh yang saya tahu, PCA tidak menganggap normalitas data. Tetapi jika terdistribusi secara normal (dalam arti yang lebih umum, terdistribusi secara simetris), maka hasilnya lebih kuat. Seperti yang orang lain katakan, kuncinya adalah PCA didasarkan pada matriks koefisien korelasi Pearson, yang perkiraannya dipengaruhi oleh pencilan dan distribusi miring. Jadi dalam beberapa analisis yang terlibat, seperti uji statistik atau nilai-p, maka Anda harus lebih peduli tentang apakah normalitas terpenuhi; tetapi dalam aplikasi lain seperti analisis eksplorasi, Anda dapat menggunakannya tetapi hanya berhati-hati saat membuat interpretasi.
sumber
Setuju dengan orang lain yang mengatakan data harus "Biasanya" didistribusikan. Distribusi apa pun akan tumpang tindih dengan distribusi normal jika Anda mengubahnya. Jika distribusi Anda tidak normal, hasil yang Anda dapatkan akan lebih rendah dibandingkan dengan kasus ketika itu normal, seperti yang dinyatakan oleh beberapa di sini ...
Jika Anda membaca referensi di jawaban pertama, di bagian Lampiran itu menyatakan bahwa asumsi adalah distribusi normal.
sumber