Mengapa PCA sensitif terhadap pencilan?

26

Ada banyak posting di SE ini yang membahas pendekatan yang kuat untuk analisis komponen utama (PCA), tetapi saya tidak dapat menemukan penjelasan yang baik tentang mengapa PCA sensitif terhadap outlier di tempat pertama.

Psi
sumber
5
Karena kontribusi norma L2 sangat tinggi untuk pencilan. Kemudian ketika meminimalkan norma L2 (yang merupakan apa yang PCA coba lakukan), titik-titik itu akan lebih sulit untuk masuk daripada titik-titik yang lebih dekat ke tengah.
mathreadler
Jawaban ini memberi tahu Anda semua yang Anda butuhkan. Bayangkan saja pencilan dan baca dengan seksama.
S. Kolassa - Reinstate Monica

Jawaban:

35

Salah satu alasannya adalah bahwa PCA dapat dianggap sebagai dekomposisi tingkat rendah dari data yang meminimalkan jumlah norma dari residu dekomposisi. Yaitu jika adalah data Anda ( vektor dimensi), dan adalah basis PCA ( vektor dimensi), maka dekomposisi akan meminimalkan Di sini A adalah matriks koefisien dekomposisi PCA dan \ lVert \ cdot \ rVert_F adalah norma Frobenius dari matriksL2YmnXkn

YXAF2=j=1mYjXAj.2
AF

Karena PCA meminimalkan norma L2 (yaitu norma kuadrat), ia memiliki masalah yang sama dengan kuadrat-terkecil atau menyesuaikan Gaussian dengan peka terhadap outlier. Karena kuadrat penyimpangan dari outlier, mereka akan mendominasi norma total dan karenanya akan mendorong komponen PCA.

sega_sai
sumber