Perbedaan antara algoritma k-means standar dan spheris

Pertanyaannya adalah:

Apa perbedaan antara k-means klasik dan k-means bola?

K-means Klasik:

Dalam k-means klasik, kami berusaha untuk meminimalkan jarak Euclidean antara pusat cluster dan anggota cluster. Intuisi di balik ini adalah bahwa jarak radial dari pusat-cluster ke lokasi elemen harus "memiliki kesamaan" atau "sama" untuk semua elemen dari cluster itu.

Algoritme adalah:

Setel jumlah cluster (alias jumlah cluster)
Inisialisasi dengan menetapkan secara acak titik-titik di ruang untuk indeks cluster
Ulangi sampai bertemu
- Untuk setiap titik, temukan cluster terdekat dan tetapkan point ke cluster
- Untuk setiap cluster, temukan rata-rata poin anggota dan rata-rata pusat pembaruan
- Kesalahan adalah norma jarak cluster

K-means bola:

Dalam k-means bola, idenya adalah untuk mengatur pusat masing-masing klaster sehingga membuat seragam dan meminimalkan sudut antara komponen. Intuisi seperti melihat bintang - titik-titik harus memiliki jarak yang konsisten antara satu sama lain. Jarak itu lebih mudah untuk dikuantifikasi sebagai "cosine similarity", tetapi itu berarti tidak ada galaksi "milky-way" yang membentuk petak-petak besar yang terang melintasi langit data. (Ya, saya mencoba berbicara dengan nenek di bagian deskripsi ini.)

Versi lebih teknis:

Pikirkan tentang vektor, hal-hal yang Anda gambarkan sebagai panah dengan orientasi, dan panjang tetap. Itu dapat diterjemahkan di mana saja dan menjadi vektor yang sama. ref

Orientasi titik dalam ruang (sudutnya dari garis referensi) dapat dihitung dengan menggunakan aljabar linier, terutama produk titik.

Jika kita memindahkan semua data sehingga ekornya berada pada titik yang sama, kita dapat membandingkan "vektor" dengan sudutnya, dan mengelompokkan yang serupa ke dalam satu cluster.

Untuk kejelasan, panjang vektor diskalakan, sehingga lebih mudah "dibandingkan".

Anda bisa menganggapnya sebagai rasi bintang. Bintang-bintang dalam satu cluster dekat satu sama lain dalam beberapa hal. Ini adalah bola mata saya yang dianggap rasi bintang.

Nilai dari pendekatan umum adalah bahwa hal itu memungkinkan kita untuk merancang vektor yang dinyatakan tidak memiliki dimensi geometris, seperti dalam metode tf-idf, di mana vektor adalah frekuensi kata dalam dokumen. Dua "dan" kata yang ditambahkan tidak sama dengan "the". Kata-kata itu tidak kontinu dan non-numerik. Mereka non-fisik dalam arti geometris, tetapi kita dapat membuatnya secara geometris, dan kemudian menggunakan metode geometris untuk menanganinya. Spherical k-means dapat digunakan untuk mengelompokkan berdasarkan kata-kata.

[\begin{matrix} x 1 & y 1 & x 2 & y 2 & g r o u p \\ 0 & - 0.8 & - 0.2013 & - 0.7316 & B \\ - 0.8 & 0.1 & - 0.9524 & 0.3639 & A \\ 0.2 & 0.3 & 0.2061 & - 0.1434 & C \\ 0.8 & 0.1 & 0.4787 & 0.153 & B \\ - 0.7 & 0.2 & - 0.7276 & 0.3825 & A \\ 0.9 & 0.9 & 0.748 & 0.6793 & C \end{matrix}]

$\begin{bmatrix} x1&y1&x2&y2&group\\ 0&-0.8&-0.2013&-0.7316&B\\ -0.8&0.1&-0.9524&0.3639&A\\ 0.2&0.3&0.2061&-0.1434&C\\ 0.8&0.1&0.4787&0.153&B\\ -0.7&0.2&-0.7276&0.3825&A\\ 0.9&0.9&0.748&0.6793&C\\ \end{bmatrix}$

Beberapa poin:

Mereka memproyeksikan ke unit sphere untuk menjelaskan perbedaan panjang dokumen.

Mari kita bekerja melalui proses yang sebenarnya, dan lihat bagaimana (buruk) "eyeballing" saya.

Prosedurnya adalah:

(Tersirat dalam masalah) menghubungkan ekor vektor pada asal
memproyeksikan ke unit sphere (untuk memperhitungkan perbedaan panjang dokumen)
gunakan pengelompokan untuk meminimalkan " ketidakseimbangan kosinus "

J = \sum_{i} d (x_{i}, p_{c (i)})

$J = \sum_{i} d \left( x_{i},p_{c\left( i \right)} \right)$

d (x, p) = 1 - c o s (x, p) = \frac{⟨ x, p ⟩}{‖ x ‖ ‖ p ‖}

$d \left( x,p \right) = 1- cos \left(x,p\right) = \frac{\langle x,p \rangle}{\left \|x \right \|\left \|p \right \|}$

(suntingan lainnya segera hadir)

Tautan:

EngrStudent - Pasang kembali Monica
sumber

Dalam file teks, saya pikir fungsi "diff" yang menyelaraskan karakter, atau mengindikasikan perubahan dengan bobot, mungkin berguna untuk preprocessing teks "close-together" untuk meningkatkan pengelompokan yang bermakna

EngrStudent - Reinstate Monica

Saya mendapatkan "Akses terlarang" di tautan di # 1 ( sci.utah.edu/~weiliu/research/clustering_fmri/… )

David Doria

@ David - saya juga. Selalu bergerak adalah ... internet? Tolong tunggu sebentar.

EngrStudent

Setelah ragu-ragu, saya memilih untuk tidak memilih jawaban ini. Ini bukan hanya penjelasan "nenek", tetapi juga tidak tepat.

radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that cluster

terdengar tidak benar atau tumpul. Dalam both uniform and minimal the angle between components"komponen" tidak didefinisikan. Saya harap Anda dapat meningkatkan jawaban yang berpotensi bagus jika Anda melakukannya dengan sedikit lebih keras dan panjang.

ttnphns

Perbedaan antara algoritma k-means standar dan spheris

Jawaban: