Salah satu kasus khas untuk penerapan estimasi kepadatan adalah deteksi kebaruan, alias deteksi outlier, di mana idenya adalah bahwa Anda hanya (atau sebagian besar) memiliki data satu jenis, tetapi Anda tertarik pada data langka yang sangat langka dan kualitatif, yang menyimpang secara signifikan dari kasus-kasus umum.
Contohnya adalah deteksi penipuan, deteksi kegagalan dalam sistem, dan sebagainya. Ini adalah situasi di mana sangat sulit dan / atau mahal untuk mengumpulkan data dari jenis yang Anda minati. Kasus langka ini, yaitu kasus dengan probabilitas rendah terjadi.
Sebagian besar waktu Anda tidak tertarik untuk memperkirakan secara akurat distribusi yang tepat, tetapi pada peluang relatif (seberapa besar kemungkinan sampel yang diberikan menjadi pencilan aktual vs bukan menjadi satu).
Ada puluhan tutorial dan ulasan tentang topik tersebut. Ini salah satu mungkin salah satu yang baik untuk memulai dengan.
EDIT: bagi sebagian orang tampaknya aneh menggunakan estimasi kepadatan untuk deteksi outlier. Pertama-tama mari kita sepakat pada satu hal: ketika seseorang cocok a model campuran dengan datanya, ia sebenarnya melakukan estimasi kepadatan. Model campuran mewakili distribusi probabilitas.
kNN dan GMM sebenarnya terkait: mereka adalah dua metode untuk memperkirakan kepadatan probabilitas seperti itu. Ini adalah ide yang mendasari banyak pendekatan dalam deteksi kebaruan. Sebagai contoh, yang satu ini didasarkan pada kNNs, yang lain ini berdasarkan pada jendela Parzen (yang menekankan gagasan ini pada awal makalah ini), dan banyak lainnya .
Menurut saya (tetapi hanya persepsi pribadi saya) bahwa sebagian besar jika tidak semua bekerja pada ide ini. Bagaimana lagi yang akan Anda ungkapkan dalam ide tentang peristiwa aneh / langka?
Saya kira algoritma mean-shift ( http://en.wikipedia.org/wiki/Mean-shift ) adalah contoh yang baik untuk aplikasi kde yang efisien dan cocok. Tujuan dari algoritma ini adalah untuk menemukan maksimal dari fungsi kepadatan data yang diberikan( xsaya) disampel dari fungsi kerapatan dan seluruhnya didasarkan pada pemodelan KDE:
sumber
Biasanya , KDE disebut-sebut sebagai alternatif untuk histogram. Keuntungan utama KDE dibandingkan histogram, dalam konteks ini, adalah untuk mengurangi efek dari parameter yang dipilih secara sewenang-wenang pada output visual dari prosedur. Khususnya (dan seperti yang diilustrasikan dalam tautan di atas), KDE tidak perlu pengguna untuk menentukan titik awal dan akhir.
sumber