Mengidentifikasi pola berurutan

8

Saya bekerja dengan data urutan yang merupakan daftar panjang panggilan win-api malware. Saya mencoba memasukkan masalah mengidentifikasi 'perilaku malware' ke dalam salah satu pola pencarian berurutan. Saya memperlakukan setiap panggilan api sebagai Itemet item tunggal. Jumlah item yang mungkin berbeda (panggilan api) cukup besar.

Sekarang, ketika saya menerapkan algoritma SPADE (lihat juga, Zaki, SPADE: Algoritma Efisien untuk Menambang Urutan yang Sering Digunakan , Pembelajaran Mesin, 42, 31-60, 2001) Saya mengalami masalah memori. Apakah ada cara alternatif yang lebih baik untuk menemukan pola berurutan di antara sekuens kosa kata tinggi yang besar?

chet
sumber
Bisakah Anda menggunakan pendekatan Markov-Chain Monte-Carlo?
Zach

Jawaban:

2

Anda dapat memetakan data ke dalam ruang fitur di mana urutannya penting, bersama dengan kedua statistik yang dihitung dari jendela geser & statistik kumulatif, dan menggunakannya dalam pohon keputusan.

Pohon keputusan dapat menangani data sekuens dan non-sekuensial. Ini secara substansial dapat mengurangi kompleksitas data Anda.

Iterator
sumber
1

Anda dapat mencoba algoritma penambangan pola berurutan lainnya.

Sebagai contoh, open source SPMF java data mining library menawarkan SPADE, tetapi juga PrefixSpan, SPAM, CM-SPAM, CM-SPADE, GSP, dll (omong-omong, saya adalah pendiri proyek). Setahu saya CM-SPADE biasanya lebih cepat dari SPADE. Dalam hal memori mungkin SPAM menggunakan lebih sedikit memori .. Anda bisa mencobanya.

Phil
sumber