[Judul awal "Pengukuran kesamaan untuk hierarki pohon clustering" kemudian diubah oleh @ttnphns untuk lebih mencerminkan topik] Saya melakukan sejumlah analisis kluster hierarkis pada kerangka data catatan pasien (misalnya mirip dengan
[Judul awal "Pengukuran kesamaan untuk hierarki pohon clustering" kemudian diubah oleh @ttnphns untuk lebih mencerminkan topik] Saya melakukan sejumlah analisis kluster hierarkis pada kerangka data catatan pasien (misalnya mirip dengan
Saya perlu menggunakan variabel biner (nilai 0 & 1) dalam k-means. Tetapi k-means hanya bekerja dengan variabel kontinu. Saya tahu beberapa orang masih menggunakan variabel-variabel biner ini dalam k-means mengabaikan fakta bahwa k-means hanya dirancang untuk variabel kontinu. Bagi saya ini...
Saat melakukan pengelompokan hierarkis, seseorang dapat menggunakan banyak metrik untuk mengukur jarak antar cluster. Dua metrik seperti itu menyiratkan perhitungan centroid dan cara titik data dalam kelompok. Apa perbedaan antara mean dan centroid? Bukankah ini titik yang sama di...
Perhatikan contoh R di bawah ini: plot( hclust(dist(USArrests), "ave") ) Apa sebenarnya arti dari sumbu y "Tinggi"? Melihat North Carolina dan California (bukan di sebelah kiri). Apakah California "lebih dekat" ke Carolina Utara daripada Arizona? Bisakah saya membuat interpretasi ini? Hawaii...
Saya menyelidiki berbagai teknik yang digunakan dalam pengelompokan dokumen dan saya ingin menghapus beberapa keraguan tentang PCA (analisis komponen utama) dan LSA (analisis semantik laten). Hal pertama - apa perbedaan di antara mereka? Saya tahu bahwa di PCA, dekomposisi SVD diterapkan ke...
Saya telah melakukan analisis data yang mencoba mengelompokkan data longitudinal menggunakan paket R dan kml . Data saya berisi sekitar 400 lintasan individu (seperti yang disebut di koran). Anda dapat melihat hasil saya di gambar berikut: Setelah membaca bab 2.2 "Memilih jumlah cluster yang...
Saya memiliki beberapa poin dalam , dan saya ingin mengelompokkan poin sehingga:R halX= { x1, . . . , xn}X={x1,...,xn}X=\{x_1,...,x_n\}RhalRhalR^p Setiap cluster berisi jumlah elemen . (Asumsikan bahwa jumlah cluster dibagi .)nXXXnnn Setiap cluster "kohesif spasial" dalam beberapa hal, seperti...
PERTANYAAN: Saya memiliki data biner pada pertanyaan ujian (benar / salah). Beberapa individu mungkin memiliki akses sebelumnya ke subset pertanyaan dan jawaban yang benar. Saya tidak tahu siapa, berapa banyak, atau yang mana. Jika tidak ada kecurangan, anggaplah saya akan memodelkan kemungkinan...
Saya memiliki tabel transfer data antara node yang berbeda. Ini adalah basis data yang sangat besar (dengan hampir 40 juta transfer). Salah satu atribut adalah jumlah byte (nbytes) transfer yang berkisar dari 0 byte hingga 2 tera byte. Saya ingin mengelompokkan nbytes sehingga diberikan k cluster...
Pertanyaan: Saya memiliki matriks korelasi yang besar. Alih-alih mengelompokkan korelasi individu, saya ingin mengelompokkan variabel berdasarkan korelasi mereka satu sama lain, yaitu jika variabel A dan variabel B memiliki korelasi yang sama dengan variabel C ke Z, maka A dan B harus menjadi...
Saya telah membaca banyak tentang algoritma -sne untuk pengurangan dimensi. Saya sangat terkesan dengan kinerja pada dataset "klasik", seperti MNIST, di mana ia mencapai pemisahan digit yang jelas ( lihat artikel asli ):ttt Saya juga menggunakannya untuk memvisualisasikan fitur yang dipelajari...
Saya ingin melakukan pengelompokan K-means pada objek yang saya miliki, tetapi objek tidak digambarkan sebagai titik dalam ruang, yaitu dengan objects x featuresdataset. Namun, saya dapat menghitung jarak antara dua objek (didasarkan pada fungsi kesamaan). Jadi, saya membuang matriks jarak objects...
Saya ingin mengelompokkan data saya secara hierarkis, tetapi daripada menggunakan jarak Euclidean, saya ingin menggunakan korelasi. Juga, karena koefisien korelasi berkisar dari -1 hingga 1, dengan -1 dan 1 menunjukkan "peraturan bersama" dalam penelitian saya, saya memperlakukan -1 dan 1 sebagai d...
Saya punya pertanyaan tentang analisis kluster. Ada 3000 perusahaan, yang harus dikelompokkan sesuai dengan penggunaan daya mereka selama 5 tahun. Setiap perusahaan memiliki nilai untuk setiap jam selama 5 tahun. Saya ingin mengetahui apakah beberapa perusahaan memiliki pola yang sama dalam...
Pertanyaan kedua adalah bahwa saya menemukan dalam suatu diskusi di suatu tempat di web berbicara tentang "pengelompokan terawasi", sejauh yang saya tahu, pengelompokan tanpa pengawasan, jadi apa sebenarnya arti di balik "pengelompokan yang diawasi"? Apa bedanya dengan "klasifikasi"? Ada banyak...
Saya memiliki matriks semi-kecil fitur biner dimensi 250k x 100. Setiap baris adalah pengguna dan kolom adalah "tag" biner dari beberapa perilaku pengguna, misalnya "likes_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 Saya ingin menyesuaikan pengguna...
Saya membaca Bishop pada algoritma EM untuk GMM dan hubungan antara GMM dan k-means. Dalam buku ini dikatakan bahwa k-means adalah versi GMM yang sulit. Saya bertanya-tanya apakah itu menyiratkan bahwa jika data yang saya coba kluster bukan Gaussian, saya tidak dapat menggunakan k-means (atau...
Saya bertanya-tanya apakah ada yang punya wawasan atau intuisi di balik perbedaan antara Variasi Informasi dan Indeks Rand untuk membandingkan pengelompokan. Saya telah membaca makalah " Membandingkan Clusterings - Sebuah Jarak Berbasis Informasi " oleh Marina Melia (Journal of Multivariate...
Setelah melakukan analisis komponen utama (PCA), saya ingin memproyeksikan vektor baru ke ruang PCA (yaitu menemukan koordinatnya dalam sistem koordinat PCA). Saya telah menghitung PCA dalam bahasa R menggunakan prcomp. Sekarang saya harus bisa mengalikan vektor saya dengan matriks rotasi PCA....
Kebanyakan algoritma pengelompokan dan pengurangan dimensi klasik (pengelompokan hierarkis, analisis komponen utama, k-means, peta pengorganisasian sendiri ...) dirancang khusus untuk data numerik, dan data inputnya dipandang sebagai titik dalam ruang euclidean. Ini tentu saja merupakan masalah,...