Pertanyaan yang diberi tag k-means

365

Bagaimana memahami kelemahan K-means

K-means adalah metode yang banyak digunakan dalam analisis cluster. Dalam pemahaman saya, metode ini TIDAK memerlukan asumsi APAPUN, yaitu, beri saya dataset dan jumlah cluster yang ditentukan sebelumnya, k, dan saya hanya menerapkan algoritma ini yang meminimalkan jumlah kesalahan kuadrat (SSE),...

86

Apa perbedaan utama antara K-means dan K-tetangga terdekat?

Saya tahu bahwa k-means tidak diawasi dan digunakan untuk pengelompokan dll dan bahwa k-NN diawasi. Tapi saya ingin tahu perbedaan konkret antara

machine-learning k-means k-nearest-neighbour

78

Clustering pada output t-SNE

Saya punya aplikasi di mana akan berguna untuk mengelompokkan dataset yang berisik sebelum mencari efek subkelompok di dalam kluster. Saya pertama kali melihat PCA, tetapi dibutuhkan ~ 30 komponen untuk mencapai 90% dari variabilitas, jadi pengelompokan hanya pada beberapa PC akan membuang banyak...

clustering interpretation k-means tsne

78

Bagaimana cara mengetahui apakah data "berkerumun" cukup untuk algoritma pengelompokan untuk menghasilkan hasil yang bermakna?

Bagaimana Anda tahu jika data Anda (dimensi tinggi) menunjukkan pengelompokan yang cukup sehingga hasil dari kmeans atau algoritma pengelompokan lainnya benar-benar bermakna? Khususnya untuk algoritma k-means, berapa banyak pengurangan dalam varians dalam-cluster yang seharusnya ada untuk hasil...

clustering k-means

77

Bagaimana cara menghasilkan plot yang bagus dari hasil analisis klaster k-means?

Saya menggunakan R untuk melakukan pengelompokan K-means. Saya menggunakan 14 variabel untuk menjalankan K-means Apa cara yang bagus untuk memplot hasil K-means? Apakah ada implementasi yang ada? Apakah memiliki 14 variabel menyulitkan merencanakan hasilnya? Saya menemukan sesuatu yang...

data-visualization classification k-means unsupervised-learning

62

Mengapa algoritme k-means hanya menggunakan metrik jarak Euclidean?

Apakah ada tujuan khusus dalam hal efisiensi atau fungsionalitas mengapa algoritma k-means tidak menggunakan misalnya cosine (dis) kesamaan sebagai metrik jarak, tetapi hanya dapat menggunakan norma Euclidean? Secara umum, akankah metode K-means patuh dan benar ketika jarak selain Euclidean...

clustering k-means distance-functions euclidean

61

Apa hubungan antara k-means clustering dan PCA?

Ini adalah praktik umum untuk menerapkan PCA (analisis komponen utama) sebelum algoritma pengelompokan (seperti k-means). Diyakini bahwa ini meningkatkan hasil pengelompokan dalam praktik (pengurangan kebisingan). Namun saya tertarik pada studi komparatif dan mendalam tentang hubungan antara PCA...

clustering pca k-means

54

Bagaimana cara memutuskan jumlah cluster yang benar?

Kami menemukan pusat-pusat klaster dan menetapkan poin ke k tempat-tempat klaster yang berbeda dalam klaster k-means yang merupakan algoritma yang sangat terkenal dan ditemukan hampir di setiap paket pembelajaran mesin di internet. Tetapi bagian yang hilang dan paling penting menurut saya adalah...

clustering k-means

50

Clustering dengan K-Means dan EM: bagaimana mereka terkait?

Saya telah mempelajari algoritma untuk pengelompokan data (pembelajaran tanpa pengawasan): EM, dan k-means. Saya terus membaca yang berikut: k-means adalah varian EM, dengan asumsi bahwa kluster adalah bola. Adakah yang bisa menjelaskan kalimat di atas? Saya tidak mengerti apa arti bola, dan...

machine-learning clustering data-mining k-means expectation-maximization

44

Apakah diperlukan normalisasi dan penskalaan fitur untuk pengelompokan k-means?

Apa saja langkah pra-pemrosesan (disarankan) terbaik sebelum melakukan

clustering normalization k-means

44

Apakah penting untuk mengukur data sebelum pengelompokan?

Saya menemukan tutorial ini , yang menunjukkan bahwa Anda harus menjalankan fungsi skala pada fitur sebelum pengelompokan (saya percaya itu mengubah data menjadi z-skor). Saya bertanya-tanya apakah itu perlu. Saya bertanya sebagian besar karena ada titik siku yang bagus ketika saya tidak menskala...

clustering k-means

33

Mengelompokkan dataset dengan variabel diskrit dan kontinu

Saya memiliki dataset X yang memiliki 10 dimensi, 4 di antaranya adalah nilai diskrit. Faktanya, keempat variabel diskrit tersebut adalah ordinal, yaitu nilai yang lebih tinggi menyiratkan semantik yang lebih tinggi / lebih baik. 2 dari variabel-variabel diskrit ini bersifat kategorikal dalam arti...

clustering k-means discrete-data continuous-data gaussian-mixture

32

Bagaimana PCA membantu dengan analisis pengelompokan k-means?

Latar Belakang : Saya ingin mengklasifikasikan area perumahan kota ke dalam kelompok berdasarkan karakteristik sosial-ekonomi mereka, termasuk kepadatan unit perumahan, kepadatan populasi, area ruang hijau, harga perumahan, jumlah sekolah / pusat kesehatan / pusat penitipan anak, dll. Saya ingin...

clustering pca k-means dimensionality-reduction

31

Mengelompokkan daftar panjang string (kata-kata) ke dalam kelompok kesamaan

Saya memiliki masalah berikut: Saya memiliki daftar kata yang sangat panjang, mungkin nama, nama keluarga, dll. Saya perlu mengelompokkan daftar kata ini, sehingga kata-kata yang serupa, misalnya kata-kata dengan jarak pengeditan (Levenshtein) yang serupa muncul di cluster yang sama. Misalnya...

clustering k-means pattern-recognition

29

Cara menangani data hierarkis / bersarang dalam pembelajaran mesin

Saya akan menjelaskan masalah saya dengan sebuah contoh. Misalkan Anda ingin memprediksi penghasilan seseorang yang diberikan beberapa atribut: {Usia, Jenis Kelamin, Negara, Wilayah, Kota}. Anda memiliki dataset pelatihan seperti itu train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),...

regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

28

Perbedaan antara algoritma k-means standar dan spheris

Saya ingin memahami, apa perbedaan implementasi utama antara algoritma klaster standar dan k-means. Dalam setiap langkah, k-means menghitung jarak antara vektor elemen dan centroid cluster, dan menugaskan kembali dokumen ke cluster ini, yang centroid adalah yang terdekat. Kemudian, semua centroid...

clustering data-mining algorithms k-means

27

Bagaimana cara menggunakan variabel biner dan kontinu bersama dalam clustering?

Saya perlu menggunakan variabel biner (nilai 0 & 1) dalam k-means. Tetapi k-means hanya bekerja dengan variabel kontinu. Saya tahu beberapa orang masih menggunakan variabel-variabel biner ini dalam k-means mengabaikan fakta bahwa k-means hanya dirancang untuk variabel kontinu. Bagi saya ini...

r clustering binary-data k-means mixed-type-data

25

Prosedur pengelompokan di mana setiap kelompok memiliki jumlah poin yang sama?

Saya memiliki beberapa poin dalam , dan saya ingin mengelompokkan poin sehingga:R halX= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}RhalRhalR^p Setiap cluster berisi jumlah elemen . (Asumsikan bahwa jumlah cluster dibagi .)nXXXnnn Setiap cluster "kohesif spasial" dalam beberapa hal, seperti...

machine-learning clustering k-means unsupervised-learning

24

Menentukan berbagai kelompok data 1d dari basis data

Saya memiliki tabel transfer data antara node yang berbeda. Ini adalah basis data yang sangat besar (dengan hampir 40 juta transfer). Salah satu atribut adalah jumlah byte (nbytes) transfer yang berkisar dari 0 byte hingga 2 tera byte. Saya ingin mengelompokkan nbytes sehingga diberikan k cluster...

clustering k-means

22

Lakukan pengelompokan K-means (atau kerabat dekatnya) dengan hanya matriks jarak, bukan data poin demi fitur

Saya ingin melakukan pengelompokan K-means pada objek yang saya miliki, tetapi objek tidak digambarkan sebagai titik dalam ruang, yaitu dengan objects x featuresdataset. Namun, saya dapat menghitung jarak antara dua objek (didasarkan pada fungsi kesamaan). Jadi, saya membuang matriks jarak objects...

machine-learning clustering data-mining k-means distance