Saya ingin menyiapkan algoritme untuk mendeteksi anomali dalam deret waktu, dan saya berencana menggunakan pengelompokan untuk itu.
Mengapa saya harus menggunakan matriks jarak untuk pengelompokan dan bukan data deret waktu mentah ?,
Untuk mendeteksi anomali, saya akan menggunakan pengelompokan berbasis kepadatan, algoritma sebagai DBscan, jadi apakah itu akan berhasil dalam kasus ini? Apakah ada versi online untuk streaming data?
Saya ingin mendeteksi anomali sebelum hal itu terjadi, jadi, apakah menggunakan algoritma deteksi tren (ARIMA) menjadi pilihan yang baik?
time-series
clustering
trend
napsterockoeur
sumber
sumber
Jawaban:
Mengenai pertanyaan pertama Anda, saya akan merekomendasikan agar Anda membaca artikel terkenal ini (Clustering of Time Series Subceedences tidak ada artinya) sebelum melakukan clustering pada time series. Itu ditulis dengan jelas dan menggambarkan banyak jebakan yang ingin Anda hindari.
sumber
Deteksi anomali atau "Deteksi Intervensi" telah diperjuangkan oleh GCTiao dan lainnya. Melakukan sains berarti mencari pola berulang. Untuk mendeteksi anomali adalah mengidentifikasi nilai-nilai yang tidak mengikuti pola berulang. Kita belajar dari Newton "Siapa pun yang tahu cara-cara alam akan lebih mudah melihat penyimpangannya dan, di sisi lain, siapa pun yang tahu penyimpangannya akan lebih akurat menggambarkan cara-caranya". Seseorang belajar aturan dengan mengamati ketika aturan saat ini gagal. Pertimbangkan deret waktu 1,9,1,9,1,9,5,9. Untuk mengidentifikasi anomali kita perlu memiliki pola. "5" adalah anomali sebanyak "14". Untuk mengidentifikasi pola cukup gunakan ARIMA dan dalam hal ini "anomali" menjadi jelas. Coba berbagai perangkat lunak / pendekatan dan lihat mana yang menyarankan model ARIMA pesanan 1.0, 0 dengan koefisien -1.0. Gunakan prosedur pencarian / google untuk menemukan "arima otomatis" atau "deteksi intervensi otomatis". Anda mungkin kecewa dengan barang gratis karena mungkin sepadan dengan apa yang Anda bayar untuk itu. Menulisnya sendiri mungkin menarik jika Anda memiliki latar belakang seri waktu yang berat dan beberapa tahun untuk dihabiskan. Ada batasan serius untuk metode berbasis jarakhttp://www3.ntu.edu.sg/SCE/pakdd2006/tutorial/chawla_tutorial_pakddslides.pdf
sumber