Pertanyaan yang diberi tag clustering

44

Apakah diperlukan normalisasi dan penskalaan fitur untuk pengelompokan k-means?

Apa saja langkah pra-pemrosesan (disarankan) terbaik sebelum melakukan

clustering normalization k-means

42

Bagaimana cara deteksi komunitas dalam jaringan / grafik sosial tertimbang?

Saya bertanya-tanya apakah seseorang dapat menyarankan apa yang merupakan titik awal yang baik untuk melakukan deteksi komunitas / partisi / pengelompokan grafik pada grafik yang memiliki bobot , tepi yang tidak terarah . Grafik yang dimaksud memiliki sekitar 3 juta tepi dan masing-masing tepi...

clustering data-visualization networks partitioning modularity

40

Clustering Warping Waktu dinamis

Apa yang akan menjadi pendekatan untuk menggunakan Dynamic Time Warping (DTW) untuk melakukan clustering time series? Saya telah membaca tentang DTW sebagai cara untuk menemukan kesamaan antara dua seri waktu, sementara mereka dapat digeser waktu. Bisakah saya menggunakan metode ini sebagai ukuran...

time-series clustering

38

Rangkaian waktu 'pengelompokan' di R

Saya memiliki satu set data deret waktu. Setiap seri mencakup periode yang sama, meskipun tanggal sebenarnya dalam setiap seri waktu mungkin tidak semuanya 'berbaris' persis. Dengan kata lain, jika seri Time harus dibaca ke dalam matriks 2D, itu akan terlihat seperti ini: date T1 T2 T3 .......

r time-series clustering cointegration

35

Bagaimana cara memilih metode pengelompokan? Bagaimana memvalidasi solusi cluster (untuk menjamin pilihan metode)?

Salah satu masalah terbesar dengan analisis kluster adalah bahwa kita mungkin harus mendapatkan kesimpulan yang berbeda ketika mendasarkan pada metode pengelompokan yang berbeda yang digunakan (termasuk metode keterkaitan yang berbeda dalam pengelompokan hierarkis). Saya ingin tahu pendapat Anda...

clustering validation model-evaluation hierarchical-clustering

34

Mengapa ada perbedaan antara menghitung interval kepercayaan 95% regresi logistik secara manual, dan menggunakan fungsi confint () di R?

Dear everyone - Saya telah memperhatikan sesuatu yang aneh yang tidak dapat saya jelaskan, bukan? Singkatnya: pendekatan manual untuk menghitung interval kepercayaan dalam model regresi logistik, dan fungsi R confint()memberikan hasil yang berbeda. Saya telah melalui regresi logistik Terapan...

r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

34

Bagaimana cara mengartikan plot Silhouette?

Saya mencoba menggunakan plot siluet untuk menentukan jumlah cluster di dataset saya. Dengan dataset Train , saya menggunakan kode matlab berikut Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s =...

data-visualization clustering matlab

34

Mengapa t-SNE tidak digunakan sebagai teknik reduksi dimensi untuk pengelompokan atau klasifikasi?

Dalam penugasan terbaru, kami disuruh menggunakan PCA pada digit MNIST untuk mengurangi dimensi dari 64 (8 x 8 gambar) menjadi 2. Kami kemudian harus mengelompokkan digit menggunakan Gaussian Mixture Model. PCA hanya menggunakan 2 komponen utama tidak menghasilkan cluster yang berbeda dan akibatnya...

classification clustering pca dimensionality-reduction tsne

34

Pengelompokan hierarkis dengan data tipe campuran - berapa jarak / kesamaan untuk digunakan?

Dalam dataset saya, kami memiliki variabel diskrit kontinu dan alami. Saya ingin tahu apakah kita bisa melakukan pengelompokan hierarkis menggunakan kedua jenis variabel. Dan jika ya, ukuran jarak apa yang

clustering similarities distance-functions mixed-type-data

33

Memilih metode tautan yang tepat untuk pengelompokan hierarkis

Saya melakukan pengelompokan hierarkis pada data yang telah saya kumpulkan dan diproses dari dump data reddit di Google BigQuery. Proses saya adalah sebagai berikut: Dapatkan 1000 posting terbaru di / r / politik Kumpulkan semua komentar Memproses data dan menghitung n x mmatriks data (n:...

clustering distance unsupervised-learning hierarchical-clustering

33

Mengelompokkan dataset dengan variabel diskrit dan kontinu

Saya memiliki dataset X yang memiliki 10 dimensi, 4 di antaranya adalah nilai diskrit. Faktanya, keempat variabel diskrit tersebut adalah ordinal, yaitu nilai yang lebih tinggi menyiratkan semantik yang lebih tinggi / lebih baik. 2 dari variabel-variabel diskrit ini bersifat kategorikal dalam arti...

clustering k-means discrete-data continuous-data gaussian-mixture

33

(Kenapa) Apakah SOM gaya Kohonen tidak disukai?

Sejauh yang saya tahu, SOMs gaya Kohonen memiliki puncak kembali sekitar tahun 2005 dan belum melihat banyak bantuan baru-baru ini. Saya belum menemukan kertas yang mengatakan bahwa SOM telah digolongkan dengan metode lain, atau terbukti setara dengan yang lain (pada dimensi yang lebih tinggi,...

clustering self-organizing-maps

32

Bagaimana PCA membantu dengan analisis pengelompokan k-means?

Latar Belakang : Saya ingin mengklasifikasikan area perumahan kota ke dalam kelompok berdasarkan karakteristik sosial-ekonomi mereka, termasuk kepadatan unit perumahan, kepadatan populasi, area ruang hijau, harga perumahan, jumlah sekolah / pusat kesehatan / pusat penitipan anak, dll. Saya ingin...

clustering pca k-means dimensionality-reduction

32

Apa kriteria berhenti untuk pengelompokan hierarki aglomeratif yang digunakan dalam praktik?

Saya telah menemukan literatur yang luas yang mengusulkan segala macam kriteria (misalnya Glenn et al. 1985 (pdf) dan Jung et al. 2002 (pdf)). Namun, sebagian besar tidak mudah diimplementasikan (setidaknya dari sudut pandang saya). Saya menggunakan scipy.cluster.hierarchy untuk mendapatkan...

clustering

31

Mengelompokkan daftar panjang string (kata-kata) ke dalam kelompok kesamaan

Saya memiliki masalah berikut: Saya memiliki daftar kata yang sangat panjang, mungkin nama, nama keluarga, dll. Saya perlu mengelompokkan daftar kata ini, sehingga kata-kata yang serupa, misalnya kata-kata dengan jarak pengeditan (Levenshtein) yang serupa muncul di cluster yang sama. Misalnya...

clustering k-means pattern-recognition

30

Analisis Kelas Laten vs. Analisis Cluster - perbedaan inferensi?

Apa perbedaan dalam kesimpulan yang dapat dibuat dari analisis kelas laten (LCA) versus analisis cluster? Apakah benar bahwa LCA mengasumsikan variabel laten yang mendasari yang menimbulkan kelas, sedangkan analisis cluster adalah deskripsi empiris atribut berkorelasi dari algoritma clustering?...

clustering latent-variable latent-class

29

Cara menangani data hierarkis / bersarang dalam pembelajaran mesin

Saya akan menjelaskan masalah saya dengan sebuah contoh. Misalkan Anda ingin memprediksi penghasilan seseorang yang diberikan beberapa atribut: {Usia, Jenis Kelamin, Negara, Wilayah, Kota}. Anda memiliki dataset pelatihan seperti itu train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),...

regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

28

Perbedaan antara algoritma k-means standar dan spheris

Saya ingin memahami, apa perbedaan implementasi utama antara algoritma klaster standar dan k-means. Dalam setiap langkah, k-means menghitung jarak antara vektor elemen dan centroid cluster, dan menugaskan kembali dokumen ke cluster ini, yang centroid adalah yang terdekat. Kemudian, semua centroid...

clustering data-mining algorithms k-means

28

Menghitung pengulangan efek dari model lmer

Saya baru saja menemukan makalah ini , yang menjelaskan bagaimana menghitung pengulangan (alias reliabilitas, alias korelasi intraclass) dari pengukuran melalui pemodelan efek campuran. Kode R adalah: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...

mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

28

Membandingkan dendrogram pengelompokan hierarkis yang diperoleh dengan jarak & metode yang berbeda

[Judul awal "Pengukuran kesamaan untuk hierarki pohon clustering" kemudian diubah oleh @ttnphns untuk lebih mencerminkan topik] Saya melakukan sejumlah analisis kluster hierarkis pada kerangka data catatan pasien (misalnya mirip dengan

r clustering distance-functions similarities dendrogram