Jadi saya punya masalah yang saya hadapi sehubungan dengan pengelompokan data langsung yang terus mengalir. Karena saya memiliki kumpulan data yang terus bertambah, saya tidak yakin apa cara terbaik untuk menjalankan pengelompokan yang efisien dan efektif. Saya telah menemukan beberapa solusi yang mungkin termasuk:
Menetapkan batas pada berapa banyak titik data yang diizinkan, sehingga kapan pun batas tersebut tercapai saat titik data lain masuk pada titik terlama dihapus. Pada dasarnya, ini menunjukkan bahwa data yang lebih lama tidak cukup relevan bagi kita untuk peduli dengan apa yang kita kehilangan dengan membuangnya.
Setelah ada cukup data untuk membuat pengelompokan yang baik, pertimbangkan ini "pengaturan" dan sebagai poin baru datang, daripada mengelompokkan kembali semua data hanya mencari tahu pusat cluster mana yang paling dekat dengan titik baru dan menambahkannya ke sana. Manfaatnya di sini adalah Anda dapat menghindari keharusan mengelompokkan kembali pada setiap titik baru dan Anda tidak perlu menyimpan semua titik lainnya, hanya pusat-pusat cluster, mengingat pengelompokan ini "cukup baik". The downside adalah bahwa menjalankan kembali algoritma dengan semua titik data dari awal mungkin lebih akurat.
Sementara itu adalah beberapa solusi potensial yang saya singgung, saya ingin tahu apakah ada teknik yang lebih dikenal untuk menghadapi masalah ini. Saya pikir situs-situs seperti Google harus menghadapinya entah bagaimana (dan saya berharap bahwa "tambahkan lebih banyak ram, server, dan prosesor" atau "terus kembangkan pusat data Anda" bukan satu-satunya jawaban yang tersedia).
sumber