Posting ini di sini untuk siapa saja yang menemukan pertanyaan saya di masa depan - makalah asli yang menggambarkan algoritma faktor pencilan lokal, "LOF: Mengidentifikasi Pencilan Lokal Berbasis Kepadatan" (Breunig et al), merekomendasikan metode pemilihan nilai-k . Sebagai pengingat, algoritma LOF membandingkan kepadatan setiap titik dengan kepadatan yang tetangga -Terdekat. Penulis makalah ini merekomendasikan untuk memilih minimum dan maksimum , dan untuk setiap titik, mengambil nilai LOF maksimum di atas setiap dalam rentang itu. Mereka menawarkan beberapa panduan untuk memilih batas.kkkk
Untuk nilai minimum, nilai LOF berfluktuasi dengan liar titik-titik dalam distribusi seragam untuk , dengan titik-titik dalam distribusi seragam kadang-kadang muncul sebagai outlier, sehingga mereka merekomendasikan setidaknya . Kedua, nilai minimum berfungsi sebagai ukuran minimum untuk sesuatu yang dianggap sebagai "cluster", sehingga poin dapat outlier relatif terhadap cluster itu. Jika , dan Anda memiliki grup poin dan poin , setiap poin dalam grup akan menyertakan di tetangga terdekatnya, dan akan memasukkan poin-poin itu, membuat mereka memiliki LOF yang sangat mirip. Jadi, jika Anda ingin mempertimbangkan titik dekat sekelompokk < 10m i n ( k ) = 10kk = 1512halhalhalNpoin sebagai outlier, bukan bagian dari kelompok itu, nilai k Anda harus setidaknya .N
Untuk nilai maksimum, kriteria yang sama berlaku, dalam hal itu harus menjadi jumlah maksimum objek yang Anda ingin dianggap outlier jika dikelompokkan bersama. Sekelompok objek diisolasi dari set utama dapat berupa cluster, atau outlier ; untuk , mereka akan menjadi yang pertama; untuk , mereka akan menjadi yang kedua.NNk < Nk > N
Semoga ini membantu siapa pun dengan masalah yang sama. Makalah lengkapnya ada di sini , dan pembahasan nilai-nilai maks / min k dimulai pada halaman 7 dan berlanjut ke halaman 9. (Mereka merujuk pada nilai- sebagai MinPts .)k