Bagaimana menemukan centroid berbeda dari menemukan mean?
26
Saat melakukan pengelompokan hierarkis, seseorang dapat menggunakan banyak metrik untuk mengukur jarak antar cluster. Dua metrik seperti itu menyiratkan perhitungan centroid dan cara titik data dalam kelompok.
Apa perbedaan antara mean dan centroid? Bukankah ini titik yang sama di cluster?
Sejauh yang saya tahu, "rata-rata" dari sebuah cluster dan centroid dari satu cluster adalah hal yang sama, meskipun istilah "centroid" mungkin sedikit lebih tepat daripada "rata-rata" ketika berhadapan dengan data multivariat.
Untuk menemukan centroid, seseorang menghitung rata-rata (aritmatika) dari posisi poin secara terpisah untuk setiap dimensi. Misalnya, jika Anda memiliki poin di:
(-1, 10, 3),
(0, 5, 2), dan
(1, 20, 10),
maka centroid akan ditempatkan di ((-1 + 0 + 1) / 3, (10 + 5 + 20) / 3, (3 + 2 + 10) / 3), yang menyederhanakan (0, 11 2/3, 5). (NB: Centroid tidak harus - dan jarang --- salah satu poin data asli)
Centroid juga kadang-kadang disebut pusat massa atau barycenter, berdasarkan interpretasi fisiknya (itu pusat massa suatu objek yang ditentukan oleh titik-titik). Seperti rata-rata, lokasi centroid meminimalkan jarak sum-kuadrat dari titik lain.
Ide terkait adalah medoid , yang merupakan titik data yang "paling tidak berbeda" dari semua titik data lainnya. Berbeda dengan centroid, medoid harus menjadi salah satu poin asli. Anda mungkin juga tertarik dengan median geometris yang merupakan analog dengan median, tetapi untuk data multivarian. Keduanya berbeda dari centroid.
Dalam kondisi apa centroid dan medoidnya identik? Dan juga mengapa centroid adalah perwakilan yang baik dari sekumpulan poin?
raikumardipak
@dkr, Anda mungkin ingin mengajukan ini sebagai pertanyaan baru untuk mendapatkan lebih banyak (dan lebih banyak) tanggapan. Yang mengatakan, perbedaan bermuara pada dua hal: 1) hal yang harus diminimalkan (jarak kuadrat / L2 norma untuk centroid, jarak absolut / norma L1 untuk mediod) dan 2) Apakah output dapat berupa titik (centroid) atau harus dalam kumpulan data (mediod). Anda dapat membayangkan kasus di mana mereka akan sama, tetapi secara umum, mereka tidak akan sama. Centroid adalah "baik" karena alasan yang sama artinya adalah (jarak sum-kuadrat terkecil ke titik-titik) dan juga memiliki kelemahan serupa (misalnya, tidak kuat terhadap outlier).
Matt Krause
4
Jawaban di atas mungkin salah melihat video ini: https://www.youtube.com/watch?v=VMyXc3SiEqs Tampaknya rata-rata menambahkan semua kombinasi jarak antara elemen cluster 1 dan cluster 2 - yaitu n ^ 2 jarak ditambahkan bersama-sama dan kemudian dibagi dengan n ^ 2 ke rata-rata.
Metode centroid pertama menghitung rata-rata setiap cluster di dalam dirinya sendiri. Kemudian ia menghitung satu jarak antara titik rata-rata itu.
Hai Gabe! Saya pikir Anda berbicara tentang bagian video ini? Sejauh yang saya tahu, centroid dan rata-rata dari satu cluster adalah hal yang sama tetapi, seperti yang Anda tunjukkan, jarak centroid dan jarak rata-rata antara dua cluster adalah ukuran yang berbeda. Saya pikir OP bertanya tentang yang pertama, tetapi saya juga mengedit sedikit tentang yang terakhir juga. Terima kasih telah menunjukkannya (+1) dan selamat datang di Cross Validated!
Matt Krause
-1
centroid adalah rata-rata titik data dalam sebuah cluster, titik sentroid tidak perlu hadir dalam kumpulan data sedangkan medoid adalah titik data yang lebih dekat dengan centroid, medoid harus ada dalam data asli
Jawaban di atas mungkin salah melihat video ini: https://www.youtube.com/watch?v=VMyXc3SiEqs Tampaknya rata-rata menambahkan semua kombinasi jarak antara elemen cluster 1 dan cluster 2 - yaitu n ^ 2 jarak ditambahkan bersama-sama dan kemudian dibagi dengan n ^ 2 ke rata-rata.
Metode centroid pertama menghitung rata-rata setiap cluster di dalam dirinya sendiri. Kemudian ia menghitung satu jarak antara titik rata-rata itu.
sumber
centroid adalah rata-rata titik data dalam sebuah cluster, titik sentroid tidak perlu hadir dalam kumpulan data sedangkan medoid adalah titik data yang lebih dekat dengan centroid, medoid harus ada dalam data asli
sumber