Jarak PCA yang kuat vs Mahalanobis yang kuat untuk deteksi outlier

17

PCA yang kuat (seperti yang dikembangkan oleh Candes et al 2009 atau lebih baik dari Netrepalli et al 2014 ) adalah metode yang populer untuk deteksi outlier multivarian , tetapi jarak Mahalanobis juga dapat digunakan untuk deteksi outlier dengan memberikan estimasi yang kuat dan teratur dari matriks kovarians . Saya ingin tahu tentang (dis) keuntungan menggunakan satu metode di atas yang lain.

Intuisi saya memberi tahu saya bahwa perbedaan terbesar antara keduanya adalah sebagai berikut: Ketika kumpulan data "kecil" (dalam arti statistik), PCA yang kuat akan memberikan kovarians berperingkat rendah sementara estimasi matriks kovarians yang kuat akan memberikan hasil penuh. peringkat kovarians karena regularisasi Ledoit-Wolf. Bagaimana hal ini pada gilirannya mempengaruhi deteksi outlier?

Mustafa S Eisa
sumber
Pertanyaan yang menarik tetapi saya tidak dapat melihat bagaimana jawaban dapat dimotivasi tanpa menggunakan kasus penggunaan tertentu. Apakah Anda memiliki "pengamatan yang sangat rusak" ? Apakah Anda memiliki data yang umumnya berisik? Sejumlah implementasi RPCA pada dasarnya adalah teknik estimasi kovarians yang kuat (lihat Prinsip Jolliffe. Analisis Komponen, Ed. 2nd Ch. 10) di mana PC diperkirakan dari estimasi kovarians yang diatur secara resmi. Dengan demikian, perbedaan dari dua pendekatan yang Anda sebutkan jauh dari jelas. Secara umum, deteksi outlier otomatis berhasil dalam konteks aplikasi tertentu.
usεr11852 mengatakan Reinstate Monic
1
Masalah "data berisik" bukan deteksi outlier. Saya pikir masalah deteksi outlier cukup membatasi sendiri untuk memungkinkan perbandingan umum antara kedua metode ini tanpa menggunakan kasus. Ini adalah pertanyaan tentang metodologi.
Mustafa S Eisa
Mungkin saya mencoba mengatakan terlalu banyak dalam ruang yang terlalu sedikit, maaf untuk itu. Yang ingin saya menarik perhatian adalah bahwa dua pendekatan yang Anda sebutkan tidak berbeda. Anda harus mempertimbangkan untuk lebih berfokus pada perbandingan antara pendekatan pengejaran proyeksi (apa yang Anda sebut RPCA) dan pendekatan estimasi kovarian yang kuat (apa yang Anda sebut jarak Mahalanobis). Estimasi kovarian yang kuat dalam dirinya sendiri adalah metodologi yang valid untuk implementasi RPCA (mis. Google "PC-M Estimation"). Tidak terlalu menyebutkan adanya pendekatan PCA tertimbang yang entah bagaimana tidak Anda sebutkan dalam konteks RPCA.
usεr11852 mengatakan Reinstate Monic
Tidak perlu permintaan maaf :) Kedua metode ini sangat berbeda, terutama pada dataset kecil. Salah satu cara mereka berbeda disebutkan di akhir pertanyaan saya. Meskipun PCA (kuat) dapat dilihat sebagai masalah proyeksi, PCA juga dapat diartikan sebagai masalah estimasi kovarians, jadi mungkin ada sedikit perbedaan dalam metode estimasi parameter daripada dalam aplikasi dan kinerja.
Mustafa S Eisa
@ MustafaSEisa / Pertanyaan yang bagus! Saya pikir itu bisa dijawab dengan alasan metodologis: sebenarnya itu adalah salah satu dari saya kesayangan. Saya akan mencoba jawaban tentatif secepatnya. Sementara itu; Saya pikir cara yang bermanfaat untuk mendekatinya dalam istilah yang lebih umum, adalah dengan melihat konsekuensi dari menggunakan model dengan kelompok invarian bersarang tetapi tidak setara. Seperti yang saya coba lakukan di sini dalam konteks yang sedikit berbeda.
user603

Jawaban:

7

Makalah ini membandingkan beberapa metode di bidang ini. Mereka merujuk pada pendekatan Robust PCA yang Anda tautkan sebagai "PCP" (pengejaran komponen utama) dan keluarga metode yang Anda tautkan untuk estimasi kovarian yang kuat sebagai M-estimator.

Mereka membantahnya

PCP dirancang untuk koordinat data yang seragam, bukan titik data yang rusak (yaitu, pencilan), oleh karena itu, perbandingan dengan PCP agak tidak adil untuk jenis data ini.

dan menunjukkan bahwa PCP (alias PCA kuat) dapat gagal untuk deteksi outlier dalam beberapa kasus.

Mereka juga berbicara tentang tiga jenis "musuh pemulihan ruang bagian," yaitu berbagai jenis pencilan, dan jenis metode apa yang mungkin paling baik untuk menangani masing-masing. Membandingkan outliers Anda sendiri dengan tiga jenis "musuh" yang dibahas di sini mungkin membantu Anda memilih pendekatan.

David J. Harris
sumber
Terima kasih untuk David ini, saya akan melihat kertasnya. Namun, ada versi PCA yang kuat yang memberikan penalti rotari-invarian pada datum (baris matriks data) alih-alih penalti pada koordinat (seperti dalam kasus Candes). Pikiran?
Mustafa S Eisa
Saya tidak yakin saya mengerti pertanyaan Anda. Apakah Anda meminta saya untuk membandingkan dua pendekatan yang Anda diskusikan dalam pertanyaan Anda dengan pendekatan PCA kuat yang berbeda?
David J. Harris
Dalam jawaban Anda, Anda membedakan antara dua metode dengan menunjukkan bahwa 1penalti dalam PCA yang kuat tidak invarian secara rotasional dan oleh karena itu lebih cocok untuk korupsi dalam basis kanonik. Saya hanya bertanya apakah Anda telah mempertimbangkan atau memikirkan kasus di mana sejumlah norma (Euclidean) digunakan sebagai pengganti1mengoordinasikan hukuman.
Mustafa S Eisa
Jika jawaban Anda adalah, "Tidak" itu tidak apa-apa, saya hanya ingin tahu.
Mustafa S Eisa
Oh begitu. Apakah itu akan menjadi kasus khusus jarak Mahalanobis?
David J. Harris