Saya memiliki satu set data bulanan suhu permukaan laut (SST) dan saya ingin menerapkan beberapa metodologi cluster untuk mendeteksi daerah dengan pola SST yang serupa. Saya memiliki satu set file data bulanan yang berjalan dari tahun 1985 hingga 2009 dan ingin menerapkan pengelompokan ke setiap bulan sebagai langkah pertama.
Setiap file berisi data grid untuk 358416 poin di mana sekitar 50% adalah tanah dan ditandai dengan nilai 99,99 yang akan menjadi NA. Format data adalah:
lon lat sst
-10.042 44.979 12.38
-9.998 44.979 12.69
-9.954 44.979 12.90
-9.910 44.979 12.90
-9.866 44.979 12.54
-9.822 44.979 12.37
-9.778 44.979 12.37
-9.734 44.979 12.51
-9.690 44.979 12.39
-9.646 44.979 12.36
Saya telah mencoba metode CLARA clustering dan mendapatkan beberapa hasil yang tampaknya bagus tetapi juga bagi saya itu hanya menghaluskan (mengelompokkan) isoline. Maka saya tidak yakin ini adalah metode pengelompokan terbaik untuk menganalisis data spasial.
Apakah ada metode pengelompokan lain yang ditujukan untuk tipe dataset ini? Beberapa referensi akan baik untuk mulai membaca.
Terima kasih sebelumnya.
sumber
Jawaban:
Ada pendekatan yang berbeda untuk pengelompokan yang skalabel, pendekatan divide and conquer, pengelompokan paralel dan yang inkremental. Ini untuk pendekatan umum setelah Anda dapat menggunakan metode pengelompokan normal. Ada metode pengelompokan yang sangat saya hargai adalah DBSCAN (Aplikasi Clustering Spasial Berbasis Kepadatan dengan Kebisingan) ini adalah salah satu algoritma pengelompokan yang paling banyak digunakan.
sumber
Pustaka python yang didokumentasikan dengan baik untuk analisis spasial yang memiliki beberapa clustering adalah pySAL .
Pustaka python lain dalam tahap pengembangan yang difokuskan pada pengelompokan spasial adalah clusterPy (presentasi slide pdf) .
Dengan pilihan algoritma pengelompokan yang lebih terbatas tetapi dengan antarmuka pemetaan yang bagus adalah perangkat lunak GUI GeoGrouper .
sumber