Ada banyak posting di SE ini yang membahas pendekatan yang kuat untuk analisis komponen utama (PCA), tetapi saya tidak dapat menemukan penjelasan yang baik tentang mengapa PCA sensitif terhadap outlier di tempat pertama.
26
Ada banyak posting di SE ini yang membahas pendekatan yang kuat untuk analisis komponen utama (PCA), tetapi saya tidak dapat menemukan penjelasan yang baik tentang mengapa PCA sensitif terhadap outlier di tempat pertama.
Jawaban:
Salah satu alasannya adalah bahwa PCA dapat dianggap sebagai dekomposisi tingkat rendah dari data yang meminimalkan jumlah norma dari residu dekomposisi. Yaitu jika adalah data Anda ( vektor dimensi), dan adalah basis PCA ( vektor dimensi), maka dekomposisi akan meminimalkan Di sini A adalah matriks koefisien dekomposisi PCA dan \ lVert \ cdot \ rVert_F adalah norma Frobenius dari matriksL2 Y m n X k n ∥Y−XA∥2F=∑j=1m∥Yj−XAj.∥2 A ∥⋅∥F
Karena PCA meminimalkan normaL2 (yaitu norma kuadrat), ia memiliki masalah yang sama dengan kuadrat-terkecil atau menyesuaikan Gaussian dengan peka terhadap outlier. Karena kuadrat penyimpangan dari outlier, mereka akan mendominasi norma total dan karenanya akan mendorong komponen PCA.
sumber