DBSCAN adalah algoritma pengelompokan yang paling banyak dikutip menurut beberapa literatur dan dapat menemukan bentuk cluster berdasarkan kepadatan. Ini memiliki dua parameter eps (sebagai radius lingkungan) dan minPts (sebagai tetangga minimum untuk mempertimbangkan titik sebagai titik inti) yang saya percaya sangat tergantung pada mereka.
Apakah ada metode rutin atau umum digunakan untuk memilih parameter ini?
clustering
dbscan
Mehraban
sumber
sumber
Jawaban:
Ada banyak publikasi yang mengusulkan metode untuk memilih parameter ini.
Yang paling penting adalah OPTICS, variasi DBSCAN yang menghilangkan parameter epsilon; itu menghasilkan hasil hierarkis yang secara kasar dapat dilihat sebagai "menjalankan DBSCAN dengan setiap epsilon yang mungkin".
Untuk minPts, saya sarankan untuk tidak mengandalkan metode otomatis, tetapi pada pengetahuan domain Anda .
Algoritma pengelompokan yang baik memiliki parameter, yang memungkinkan Anda untuk menyesuaikannya dengan kebutuhan Anda.
Parameter yang Anda abaikan adalah fungsi jarak. Hal pertama yang harus dilakukan untuk DBSCAN adalah menemukan fungsi jarak yang baik untuk aplikasi Anda . Jangan mengandalkan jarak Euclidean menjadi yang terbaik untuk setiap aplikasi!
sumber
k
untuk klasifikasi tetangga terdekat, maka Anda bisa mengatakan hal yang sama untuk parameter minPts. Saya kira perbedaan utama adalah bahwa untuk jarak, ada "sering" default yang masuk akal: jarak Euclidean; sedangkan untuk minPts nilainya akan menjadi data spesifik.