Deret waktu dan deteksi anomali

15

Saya ingin menyiapkan algoritme untuk mendeteksi anomali dalam deret waktu, dan saya berencana menggunakan pengelompokan untuk itu.

  • Mengapa saya harus menggunakan matriks jarak untuk pengelompokan dan bukan data deret waktu mentah ?,

  • Untuk mendeteksi anomali, saya akan menggunakan pengelompokan berbasis kepadatan, algoritma sebagai DBscan, jadi apakah itu akan berhasil dalam kasus ini? Apakah ada versi online untuk streaming data?

  • Saya ingin mendeteksi anomali sebelum hal itu terjadi, jadi, apakah menggunakan algoritma deteksi tren (ARIMA) menjadi pilihan yang baik?

napsterockoeur
sumber
Itu ditulis dengan benar DBSCAN. Itu adalah singkatan. Saya tidak yakin apa yang Anda coba lakukan. Mendeteksi anomali dalam deret waktu, atau deret waktu keseluruhan anomali.
Memiliki QUIT - Anony-Mousse
Ya DBSCAN, tepat! Apa yang saya coba lakukan adalah anomali deteksi online dalam dataset deret waktu! begitu! ada permintaan ? terima kasih salam
napsterockoeur
Daring seperti dalam jeda waktu yang terus bertambah atau seperti pada seri tambahan yang ditambahkan? Sekali lagi, ini sangat berbeda, dan Anda harus sangat jelas tentang yang Anda maksudkan.
Memiliki QUIT - Anony-Mousse
Maksud saya dengan online (streaming), serangkaian waktu yang berkembang datang dari sensor .. setiap satu jam satu set data (vektor) diterima ..
napsterockoeur

Jawaban:

12

Mengenai pertanyaan pertama Anda, saya akan merekomendasikan agar Anda membaca artikel terkenal ini (Clustering of Time Series Subceedences tidak ada artinya) sebelum melakukan clustering pada time series. Itu ditulis dengan jelas dan menggambarkan banyak jebakan yang ingin Anda hindari.

gui11aume
sumber
6

Deteksi anomali atau "Deteksi Intervensi" telah diperjuangkan oleh GCTiao dan lainnya. Melakukan sains berarti mencari pola berulang. Untuk mendeteksi anomali adalah mengidentifikasi nilai-nilai yang tidak mengikuti pola berulang. Kita belajar dari Newton "Siapa pun yang tahu cara-cara alam akan lebih mudah melihat penyimpangannya dan, di sisi lain, siapa pun yang tahu penyimpangannya akan lebih akurat menggambarkan cara-caranya". Seseorang belajar aturan dengan mengamati ketika aturan saat ini gagal. Pertimbangkan deret waktu 1,9,1,9,1,9,5,9. Untuk mengidentifikasi anomali kita perlu memiliki pola. "5" adalah anomali sebanyak "14". Untuk mengidentifikasi pola cukup gunakan ARIMA dan dalam hal ini "anomali" menjadi jelas. Coba berbagai perangkat lunak / pendekatan dan lihat mana yang menyarankan model ARIMA pesanan 1.0, 0 dengan koefisien -1.0. Gunakan prosedur pencarian / google untuk menemukan "arima otomatis" atau "deteksi intervensi otomatis". Anda mungkin kecewa dengan barang gratis karena mungkin sepadan dengan apa yang Anda bayar untuk itu. Menulisnya sendiri mungkin menarik jika Anda memiliki latar belakang seri waktu yang berat dan beberapa tahun untuk dihabiskan. Ada batasan serius untuk metode berbasis jarakhttp://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf

IrishStat
sumber
Terima kasih banyak, Pak IrishStat, saya benar-benar baik-baik saja dengan Anda, bahwa ada batasan besar dalam metode berbasis jarak dan saya kira metode lain juga, inilah sebabnya saya menguji metode basis kepadatan, saya melihat banyak artikel berbicara tentang seri deteksi anomali, seperti penelitian nasa, universitas .. dll tetapi kemajuan kecil, untuk masalah data tertentu Dan baru-baru ini saya menemukan, perangkat lunak gratis yang bagus untuk deteksi outlier: MOA of Weka! Apakah Anda mengujinya sebelumnya? ini adalah perangkat lunak open source, saya mencoba menggunakannya untuk mengembangkan dan mengintegrasikan algoritma anomali deteksi kecil saya,
napsterockoeur
oh: FYI: Saya sedang menangani data streaming
napsterockoeur