K-means vs. K-means online

15

K-means adalah algoritma yang terkenal untuk pengelompokan, tetapi ada juga variasi online dari algoritma tersebut (online K-means). Apa pro dan kontra dari pendekatan ini, dan kapan masing-masing harus lebih disukai?

Rubens
sumber

Jawaban:

11

K-means online (lebih dikenal sebagai sekuensial k-means ) dan k-means tradisional sangat mirip. Perbedaannya adalah bahwa k-means online memungkinkan Anda untuk memperbarui model saat data baru diterima.

K-means online harus digunakan ketika Anda mengharapkan data diterima satu per satu (atau mungkin dalam satuan). Ini memungkinkan Anda untuk memperbarui model Anda saat Anda mendapatkan informasi lebih lanjut tentang itu. Kelemahan dari metode ini adalah tergantung pada urutan penerimaan data ( ref ).

Christopher Louden
sumber
7

Publikasi k-means MacQueen asli (yang pertama menggunakan nama "kmeans") adalah algoritma online.

MacQueen, JB (1967). "Beberapa Metode untuk klasifikasi dan Analisis Pengamatan Multivariat". Prosiding Simposium Berkeley ke-5 tentang Statistik Matematika dan Probabilitas 1. University of California Press. hlm. 281–297

Setelah menetapkan setiap titik, rerata diperbarui secara bertahap menggunakan rumus rata-rata tertimbang sederhana (rerata lama ditimbang dengan n, pengamatan baru ditimbang dengan 1, jika rerata memiliki n pengamatan sebelumnya).

Sejauh yang saya tahu, itu juga dimaksudkan untuk menjadi hanya satu melewati data saja, meskipun dapat diulang sepele beberapa kali untuk menetapkan kembali poin sampai konvergensi.

MacQueen biasanya membutuhkan lebih sedikit iterasi daripada Lloyds untuk konvergen jika data Anda diacak (karena pembaruan berarti lebih cepat!). Pada data yang dipesan, ini dapat memiliki masalah. Pada sisi negatifnya, ini membutuhkan lebih banyak perhitungan untuk setiap objek, sehingga setiap iterasi membutuhkan waktu yang sedikit lebih lama (operasi matematika tambahan, tentu saja).

Memiliki QUIT - Anony-Mousse
sumber