Deteksi Pencilan / Anomali Terukur

10

Saya mencoba menyiapkan infrastruktur data besar menggunakan Hadoop, Hive, Elastic Search (di antara yang lain), dan saya ingin menjalankan beberapa algoritma melalui set data tertentu. Saya ingin algoritma itu sendiri dapat diskalakan, jadi ini tidak termasuk menggunakan alat seperti Weka, R, atau bahkan RHadoop. The Apache Mahout Perpustakaan tampaknya menjadi pilihan yang baik, dan fitur algoritma untuk regresi dan clustering tugas .

Apa yang saya perjuangkan adalah solusi untuk deteksi anomali atau outlier.

Karena Mahout menampilkan Hidden Markov Model dan berbagai teknik pengelompokan (termasuk K-Means), saya bertanya-tanya apakah mungkin untuk membuat model untuk mendeteksi pencilan dalam deret waktu, menggunakan semua ini. Saya akan berterima kasih jika seseorang yang berpengalaman dalam hal ini dapat menasihati saya

  1. jika mungkin, dan dalam kasus itu
  2. cara melakukannya, plus
  3. estimasi upaya yang terlibat dan
  4. akurasi / masalah dari pendekatan ini.
berlipat ganda
sumber
1
Ini terlalu samar untuk dijawab. Rangkaian waktu terlalu berbeda untuk hanya melemparkan k-means pada mereka dan mengeluarkan sesuatu yang bermanfaat. Ini sangat tergantung pada data Anda.
Memiliki QUIT - Anony-Mousse
1
Untuk deteksi outlier, lihat algoritma di ELKI. Itu tampaknya merupakan kumpulan deteksi outlier terlengkap.
Memiliki QUIT - Anony-Mousse
Versi Elasticsearch yang lebih baru memiliki deteksi anomali seri waktu (saya pikir Anda harus membeli X-Pack). Saya tidak yakin algoritma apa yang mereka gunakan tetapi mungkin ada baiknya menyelidiki solusi yang sudah tidak berlaku.
tom

Jawaban:

7

Saya akan melihat algoritma t-digest . Sudah digabung menjadi mahout dan juga bagian dari beberapa perpustakaan lain untuk streaming data besar. Anda bisa mendapatkan lebih banyak tentang algoritma ini khususnya dan deteksi anomali data besar secara umum di sumber daya berikutnya:

  1. Mesin praktis belajar buku deteksi anomali.
  2. Webinar: Deteksi Anomali Ketika Anda Tidak Tahu Apa yang Perlu Anda Temukan
  3. Deteksi Anomali di Elasticsearch .
  4. Mengalahkan Penipuan Milyar Dolar Menggunakan Deteksi Anomali: Pendekatan Pemrosesan Sinyal menggunakan Data Argyle pada Platform Data Hortonworks dengan Accumulo
prudenko
sumber
Bagaimana t-digest dibandingkan dengan algoritma p-square?
David Marx
Terima kasih atas jawabannya: ini adalah model sederhana untuk menghitung kuantil ekstrem, dan saya pikir ini akan sesuai dengan kebutuhan saya. Namun untuk rangkaian waktu yang lebih kompleks yang tidak memiliki distribusi yang hampir stasioner, pendekatan ini mungkin gagal, dan saat itulah saya pikir kita akan membutuhkan sesuatu yang adaptif seperti rantai Markov.
Gandakan
0

Anda dapat merujuk pada tanggapan saya terkait dengan metode deteksi anomali h2o R atau Python di stackexchange , karena itu juga dapat diskalakan.

0xF
sumber