Pemilihan fitur otomatis untuk deteksi anomali

11

Apa cara terbaik untuk memilih fitur secara otomatis untuk deteksi anomali?

Saya biasanya memperlakukan Deteksi Anomali sebagai algoritme di mana fitur dipilih oleh para ahli manusia: yang penting adalah kisaran output (seperti pada "input abnormal - output abnormal") sehingga bahkan dengan banyak fitur Anda dapat membuat subset yang jauh lebih kecil dengan menggabungkan fitur-fitur.

Namun, dengan asumsi bahwa secara umum daftar fitur bisa sangat besar, mungkin pembelajaran otomatis terkadang lebih disukai. Sejauh yang saya bisa lihat, ada beberapa upaya:

  • "Pemilihan fitur otomatis untuk Deteksi Anomali" ( pdf ) yang menggeneralisasi Deskripsi Data Vektor Dukungan
  • "Sistem Deteksi Intrusi Berbasis Host Cepat Menggunakan Teori Rough Set" (tidak ada pdf tersedia?) Yang, saya kira, menggunakan Teori Rough Set
  • "Aturan Pembelajaran untuk Deteksi Anomali Lalu Lintas Jaringan yang Tidak Ramah" ( pdf , video ) yang menggunakan pendekatan statistik

Jadi sekarang saya bertanya-tanya apakah ada yang bisa tahu - dengan asumsi deteksi anomali dan set fitur yang sangat besar (ratusan?):

  1. Apakah set fitur besar itu masuk akal sama sekali? Bukankah kita seharusnya mengurangi set up fitur untuk, katakanlah, beberapa lusin dan hanya itu?
  2. Jika set fitur besar masuk akal, yang mana dari salah satu pendekatan di atas akan memberikan prediksi yang lebih baik, dan mengapa? Apakah ada sesuatu yang tidak terdaftar yang jauh lebih baik?
  3. Mengapa mereka harus memberikan hasil yang lebih baik dibandingkan dengan, katakanlah, pengurangan dimensi atau konstruksi fitur melalui pengelompokan / peringkat / dll?
andreister
sumber
Tautan Anda tidak memunculkan pertanyaan khusus untuk saya. Bisakah Anda memberikan deskripsi singkat tentang masalahnya? Apa tujuannya? Apakah ini masalah belajar yang diawasi atau tidak diawasi?
AdamO
Pertanyaannya adalah dari ML.SE yang ditutup sekarang - ternyata admin tidak bergabung dalam semua pertanyaan. Saya mengedit teks sekarang untuk secara eksplisit menyatakan masalahnya!
andreister

Jawaban:

1

Salah satu pendekatan praktis (dalam hal pembelajaran yang diawasi setidaknya) adalah untuk memasukkan semua fitur yang mungkin relevan dan menggunakan model linier (umum) (regresi logistik, linear svm, dll.) Dengan regularisasi (L1 dan / atau L2). Ada alat sumber terbuka (mis. Vowpal Wabbit) yang dapat menangani triliunan kombinasi contoh / fitur untuk jenis model ini sehingga skalabilitas tidak menjadi masalah (selain itu, orang selalu dapat menggunakan sub-sampling). Regulator membantu menangani pemilihan fitur.

Yevgeny
sumber
Tetapi bagaimana cara memilih fitur dalam pengaturan tanpa pengawasan (tanpa perlu menggunakan model linier, dll., Untuk menghasilkan fitur penting)? Salah satu cara yang dapat saya pikirkan adalah menggunakan PCA untuk mempertahankan beberapa varian dan mengurangi ukuran data. Tetapi sekali lagi, mengurangi data dalam masalah pendeteksian anomali tampaknya berbahaya karena Anda mungkin akan kehilangan pencilan aktual yang ingin Anda prediksi. Karena itu kebingungan.
exAres