Saya mencoba menyiapkan infrastruktur data besar menggunakan Hadoop, Hive, Elastic Search (di antara yang lain), dan saya ingin menjalankan beberapa algoritma melalui set data tertentu. Saya ingin algoritma itu sendiri dapat diskalakan, jadi ini tidak termasuk menggunakan alat seperti Weka, R, atau bahkan RHadoop. The Apache Mahout Perpustakaan tampaknya menjadi pilihan yang baik, dan fitur algoritma untuk regresi dan clustering tugas .
Apa yang saya perjuangkan adalah solusi untuk deteksi anomali atau outlier.
Karena Mahout menampilkan Hidden Markov Model dan berbagai teknik pengelompokan (termasuk K-Means), saya bertanya-tanya apakah mungkin untuk membuat model untuk mendeteksi pencilan dalam deret waktu, menggunakan semua ini. Saya akan berterima kasih jika seseorang yang berpengalaman dalam hal ini dapat menasihati saya
- jika mungkin, dan dalam kasus itu
- cara melakukannya, plus
- estimasi upaya yang terlibat dan
- akurasi / masalah dari pendekatan ini.
sumber
Jawaban:
Saya akan melihat algoritma t-digest . Sudah digabung menjadi mahout dan juga bagian dari beberapa perpustakaan lain untuk streaming data besar. Anda bisa mendapatkan lebih banyak tentang algoritma ini khususnya dan deteksi anomali data besar secara umum di sumber daya berikutnya:
sumber
Anda dapat merujuk pada tanggapan saya terkait dengan metode deteksi anomali h2o R atau Python di stackexchange , karena itu juga dapat diskalakan.
sumber