Apa cara terbaik untuk memilih fitur secara otomatis untuk deteksi anomali?
Saya biasanya memperlakukan Deteksi Anomali sebagai algoritme di mana fitur dipilih oleh para ahli manusia: yang penting adalah kisaran output (seperti pada "input abnormal - output abnormal") sehingga bahkan dengan banyak fitur Anda dapat membuat subset yang jauh lebih kecil dengan menggabungkan fitur-fitur.
Namun, dengan asumsi bahwa secara umum daftar fitur bisa sangat besar, mungkin pembelajaran otomatis terkadang lebih disukai. Sejauh yang saya bisa lihat, ada beberapa upaya:
- "Pemilihan fitur otomatis untuk Deteksi Anomali" ( pdf ) yang menggeneralisasi Deskripsi Data Vektor Dukungan
- "Sistem Deteksi Intrusi Berbasis Host Cepat Menggunakan Teori Rough Set" (tidak ada pdf tersedia?) Yang, saya kira, menggunakan Teori Rough Set
- "Aturan Pembelajaran untuk Deteksi Anomali Lalu Lintas Jaringan yang Tidak Ramah" ( pdf , video ) yang menggunakan pendekatan statistik
Jadi sekarang saya bertanya-tanya apakah ada yang bisa tahu - dengan asumsi deteksi anomali dan set fitur yang sangat besar (ratusan?):
- Apakah set fitur besar itu masuk akal sama sekali? Bukankah kita seharusnya mengurangi set up fitur untuk, katakanlah, beberapa lusin dan hanya itu?
- Jika set fitur besar masuk akal, yang mana dari salah satu pendekatan di atas akan memberikan prediksi yang lebih baik, dan mengapa? Apakah ada sesuatu yang tidak terdaftar yang jauh lebih baik?
- Mengapa mereka harus memberikan hasil yang lebih baik dibandingkan dengan, katakanlah, pengurangan dimensi atau konstruksi fitur melalui pengelompokan / peringkat / dll?
feature-selection
outliers
andreister
sumber
sumber
Jawaban:
Salah satu pendekatan praktis (dalam hal pembelajaran yang diawasi setidaknya) adalah untuk memasukkan semua fitur yang mungkin relevan dan menggunakan model linier (umum) (regresi logistik, linear svm, dll.) Dengan regularisasi (L1 dan / atau L2). Ada alat sumber terbuka (mis. Vowpal Wabbit) yang dapat menangani triliunan kombinasi contoh / fitur untuk jenis model ini sehingga skalabilitas tidak menjadi masalah (selain itu, orang selalu dapat menggunakan sub-sampling). Regulator membantu menangani pemilihan fitur.
sumber