Dalam klasifikasi sederhana, kami memiliki dua kelas: kelas-0 dan kelas-1. Dalam beberapa data saya hanya memiliki nilai untuk kelas-1, jadi tidak ada untuk kelas-0. Sekarang saya berpikir untuk membuat model untuk memodelkan data untuk kelas-1. Jadi, ketika data baru datang, model ini diterapkan pada data baru dan menemukan probabilitas yang mengatakan seberapa besar kemungkinan data baru tersebut cocok dengan model ini. Kemudian membandingkan dengan ambang, saya bisa memfilter data yang tidak pantas.
Pertanyaan saya adalah:
- Apakah ini cara yang baik untuk mengatasi masalah seperti itu?
- Bisakah classifier RandomForest digunakan untuk kasus ini? Apakah saya perlu menambahkan data buatan untuk kelas-0 yang saya harap dianggap sebagai noise?
- Ada ide lain yang bisa membantu untuk masalah ini?
sumber
Biarkan saya menambahkan beberapa kemungkinan:
Gagasan umum adalah bahwa menetapkan ambang batas untuk jarak dari kelas memungkinkan Anda untuk memutuskan apakah sampel termasuk dalam kelas itu atau tidak, dan terlepas dari apakah ada kelas lain atau tidak.
SIMCA umum dalam literatur chemometrik (meskipun jarang benar-benar diatur dalam cara satu kelas).
Richard G. Brereton: Chemometrics for Pattern Recognition (Wiley, 2009) memiliki seluruh bab tentang klasifikasi satu kelas.
sumber