PCA yang kuat (seperti yang dikembangkan oleh Candes et al 2009 atau lebih baik dari Netrepalli et al 2014 ) adalah metode yang populer untuk deteksi outlier multivarian , tetapi jarak Mahalanobis juga dapat digunakan untuk deteksi outlier dengan memberikan estimasi yang kuat dan teratur dari matriks kovarians . Saya ingin tahu tentang (dis) keuntungan menggunakan satu metode di atas yang lain.
Intuisi saya memberi tahu saya bahwa perbedaan terbesar antara keduanya adalah sebagai berikut: Ketika kumpulan data "kecil" (dalam arti statistik), PCA yang kuat akan memberikan kovarians berperingkat rendah sementara estimasi matriks kovarians yang kuat akan memberikan hasil penuh. peringkat kovarians karena regularisasi Ledoit-Wolf. Bagaimana hal ini pada gilirannya mempengaruhi deteksi outlier?
sumber
Jawaban:
Makalah ini membandingkan beberapa metode di bidang ini. Mereka merujuk pada pendekatan Robust PCA yang Anda tautkan sebagai "PCP" (pengejaran komponen utama) dan keluarga metode yang Anda tautkan untuk estimasi kovarian yang kuat sebagai M-estimator.
Mereka membantahnya
dan menunjukkan bahwa PCP (alias PCA kuat) dapat gagal untuk deteksi outlier dalam beberapa kasus.
Mereka juga berbicara tentang tiga jenis "musuh pemulihan ruang bagian," yaitu berbagai jenis pencilan, dan jenis metode apa yang mungkin paling baik untuk menangani masing-masing. Membandingkan outliers Anda sendiri dengan tiga jenis "musuh" yang dibahas di sini mungkin membantu Anda memilih pendekatan.
sumber