Pertanyaan yang diberi tag clustering

28

Membandingkan dendrogram pengelompokan hierarkis yang diperoleh dengan jarak & metode yang berbeda

[Judul awal "Pengukuran kesamaan untuk hierarki pohon clustering" kemudian diubah oleh @ttnphns untuk lebih mencerminkan topik] Saya melakukan sejumlah analisis kluster hierarkis pada kerangka data catatan pasien (misalnya mirip dengan

27

Bagaimana cara menggunakan variabel biner dan kontinu bersama dalam clustering?

Saya perlu menggunakan variabel biner (nilai 0 & 1) dalam k-means. Tetapi k-means hanya bekerja dengan variabel kontinu. Saya tahu beberapa orang masih menggunakan variabel-variabel biner ini dalam k-means mengabaikan fakta bahwa k-means hanya dirancang untuk variabel kontinu. Bagi saya ini...

r clustering binary-data k-means mixed-type-data

26

Bagaimana menemukan centroid berbeda dari menemukan mean?

Saat melakukan pengelompokan hierarkis, seseorang dapat menggunakan banyak metrik untuk mengukur jarak antar cluster. Dua metrik seperti itu menyiratkan perhitungan centroid dan cara titik data dalam kelompok. Apa perbedaan antara mean dan centroid? Bukankah ini titik yang sama di...

clustering mean

25

Bagaimana menafsirkan dendrogram dari analisis klaster hierarkis

Perhatikan contoh R di bawah ini: plot( hclust(dist(USArrests), "ave") ) Apa sebenarnya arti dari sumbu y "Tinggi"? Melihat North Carolina dan California (bukan di sebelah kiri). Apakah California "lebih dekat" ke Carolina Utara daripada Arizona? Bisakah saya membuat interpretasi ini? Hawaii...

interpretation hierarchical-clustering dendrogram

25

LSA vs PCA (pengelompokan dokumen)

Saya menyelidiki berbagai teknik yang digunakan dalam pengelompokan dokumen dan saya ingin menghapus beberapa keraguan tentang PCA (analisis komponen utama) dan LSA (analisis semantik laten). Hal pertama - apa perbedaan di antara mereka? Saya tahu bahwa di PCA, dekomposisi SVD diterapkan ke...

clustering pca data-mining svd lsa

25

Apa nilai kriteria Calinski & Harabasz (CH) yang dapat diterima?

Saya telah melakukan analisis data yang mencoba mengelompokkan data longitudinal menggunakan paket R dan kml . Data saya berisi sekitar 400 lintasan individu (seperti yang disebut di koran). Anda dapat melihat hasil saya di gambar berikut: Setelah membaca bab 2.2 "Memilih jumlah cluster yang...

r clustering panel-data

25

Prosedur pengelompokan di mana setiap kelompok memiliki jumlah poin yang sama?

Saya memiliki beberapa poin dalam , dan saya ingin mengelompokkan poin sehingga:R halX= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}RhalRhalR^p Setiap cluster berisi jumlah elemen . (Asumsikan bahwa jumlah cluster dibagi .)nXXXnnn Setiap cluster "kohesif spasial" dalam beberapa hal, seperti...

machine-learning clustering k-means unsupervised-learning

25

Mendeteksi pola kecurangan pada ujian multi-pertanyaan

PERTANYAAN: Saya memiliki data biner pada pertanyaan ujian (benar / salah). Beberapa individu mungkin memiliki akses sebelumnya ke subset pertanyaan dan jawaban yang benar. Saya tidak tahu siapa, berapa banyak, atau yang mana. Jika tidak ada kecurangan, anggaplah saya akan memodelkan kemungkinan...

r clustering classification psychometrics

24

Menentukan berbagai kelompok data 1d dari basis data

Saya memiliki tabel transfer data antara node yang berbeda. Ini adalah basis data yang sangat besar (dengan hampir 40 juta transfer). Salah satu atribut adalah jumlah byte (nbytes) transfer yang berkisar dari 0 byte hingga 2 tera byte. Saya ingin mengelompokkan nbytes sehingga diberikan k cluster...

clustering k-means

23

Variabel pengelompokan berdasarkan korelasi di antara mereka

Pertanyaan: Saya memiliki matriks korelasi yang besar. Alih-alih mengelompokkan korelasi individu, saya ingin mengelompokkan variabel berdasarkan korelasi mereka satu sama lain, yaitu jika variabel A dan variabel B memiliki korelasi yang sama dengan variabel C ke Z, maka A dan B harus menjadi...

correlation clustering correlation-matrix

23

Haruskah reduksi dimensi untuk visualisasi dianggap sebagai masalah "tertutup", diselesaikan oleh t-SNE?

Saya telah membaca banyak tentang algoritma -sne untuk pengurangan dimensi. Saya sangat terkesan dengan kinerja pada dataset "klasik", seperti MNIST, di mana ia mencapai pemisahan digit yang jelas ( lihat artikel asli ):ttt Saya juga menggunakannya untuk memvisualisasikan fitur yang dipelajari...

clustering data-visualization dimensionality-reduction high-dimensional tsne

22

Lakukan pengelompokan K-means (atau kerabat dekatnya) dengan hanya matriks jarak, bukan data poin demi fitur

Saya ingin melakukan pengelompokan K-means pada objek yang saya miliki, tetapi objek tidak digambarkan sebagai titik dalam ruang, yaitu dengan objects x featuresdataset. Namun, saya dapat menghitung jarak antara dua objek (didasarkan pada fungsi kesamaan). Jadi, saya membuang matriks jarak objects...

machine-learning clustering data-mining k-means distance

22

Menggunakan korelasi sebagai metrik jarak (untuk pengelompokan hierarkis)

Saya ingin mengelompokkan data saya secara hierarkis, tetapi daripada menggunakan jarak Euclidean, saya ingin menggunakan korelasi. Juga, karena koefisien korelasi berkisar dari -1 hingga 1, dengan -1 dan 1 menunjukkan "peraturan bersama" dalam penelitian saya, saya memperlakukan -1 dan 1 sebagai d...

correlation clustering distance hierarchical-clustering

22

Bagaimana cara mengelompokkan deret waktu?

Saya punya pertanyaan tentang analisis kluster. Ada 3000 perusahaan, yang harus dikelompokkan sesuai dengan penggunaan daya mereka selama 5 tahun. Setiap perusahaan memiliki nilai untuk setiap jam selama 5 tahun. Saya ingin mengetahui apakah beberapa perusahaan memiliki pola yang sama dalam...

time-series clustering spss

22

Pengelompokan atau klasifikasi yang diawasi?

Pertanyaan kedua adalah bahwa saya menemukan dalam suatu diskusi di suatu tempat di web berbicara tentang "pengelompokan terawasi", sejauh yang saya tahu, pengelompokan tanpa pengawasan, jadi apa sebenarnya arti di balik "pengelompokan yang diawasi"? Apa bedanya dengan "klasifikasi"? Ada banyak...

clustering classification unsupervised-learning statistical-learning

22

Mengelompokkan matriks biner

Saya memiliki matriks semi-kecil fitur biner dimensi 250k x 100. Setiap baris adalah pengguna dan kolom adalah "tag" biner dari beberapa perilaku pengguna, misalnya "likes_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 Saya ingin menyesuaikan pengguna...

r clustering binary-data

21

Jika k-means clustering adalah suatu bentuk pemodelan campuran Gaussian, dapatkah itu digunakan ketika data tidak normal?

Saya membaca Bishop pada algoritma EM untuk GMM dan hubungan antara GMM dan k-means. Dalam buku ini dikatakan bahwa k-means adalah versi GMM yang sulit. Saya bertanya-tanya apakah itu menyiratkan bahwa jika data yang saya coba kluster bukan Gaussian, saya tidak dapat menggunakan k-means (atau...

clustering data-mining k-means gaussian-mixture

21

Membandingkan pengelompokan: Indeks Rand vs Variasi Informasi

Saya bertanya-tanya apakah ada yang punya wawasan atau intuisi di balik perbedaan antara Variasi Informasi dan Indeks Rand untuk membandingkan pengelompokan. Saya telah membaca makalah " Membandingkan Clusterings - Sebuah Jarak Berbasis Informasi " oleh Marina Melia (Journal of Multivariate...

machine-learning clustering metric

21

Bagaimana cara memproyeksikan vektor baru ke ruang PCA?

Setelah melakukan analisis komponen utama (PCA), saya ingin memproyeksikan vektor baru ke ruang PCA (yaitu menemukan koordinatnya dalam sistem koordinat PCA). Saya telah menghitung PCA dalam bahasa R menggunakan prcomp. Sekarang saya harus bisa mengalikan vektor saya dengan matriks rotasi PCA....

r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

21

Mengapa data campuran merupakan masalah untuk algoritma pengelompokan berbasis euclidean?

Kebanyakan algoritma pengelompokan dan pengurangan dimensi klasik (pengelompokan hierarkis, analisis komponen utama, k-means, peta pengorganisasian sendiri ...) dirancang khusus untuk data numerik, dan data inputnya dipandang sebagai titik dalam ruang euclidean. Ini tentu saja merupakan masalah,...

clustering dimensionality-reduction distance self-organizing-maps mixed-type-data