Apa saja langkah pra-pemrosesan (disarankan) terbaik sebelum melakukan
Apa saja langkah pra-pemrosesan (disarankan) terbaik sebelum melakukan
Saya bertanya-tanya apakah seseorang dapat menyarankan apa yang merupakan titik awal yang baik untuk melakukan deteksi komunitas / partisi / pengelompokan grafik pada grafik yang memiliki bobot , tepi yang tidak terarah . Grafik yang dimaksud memiliki sekitar 3 juta tepi dan masing-masing tepi...
Apa yang akan menjadi pendekatan untuk menggunakan Dynamic Time Warping (DTW) untuk melakukan clustering time series? Saya telah membaca tentang DTW sebagai cara untuk menemukan kesamaan antara dua seri waktu, sementara mereka dapat digeser waktu. Bisakah saya menggunakan metode ini sebagai ukuran...
Saya memiliki satu set data deret waktu. Setiap seri mencakup periode yang sama, meskipun tanggal sebenarnya dalam setiap seri waktu mungkin tidak semuanya 'berbaris' persis. Dengan kata lain, jika seri Time harus dibaca ke dalam matriks 2D, itu akan terlihat seperti ini: date T1 T2 T3 .......
Salah satu masalah terbesar dengan analisis kluster adalah bahwa kita mungkin harus mendapatkan kesimpulan yang berbeda ketika mendasarkan pada metode pengelompokan yang berbeda yang digunakan (termasuk metode keterkaitan yang berbeda dalam pengelompokan hierarkis). Saya ingin tahu pendapat Anda...
Dear everyone - Saya telah memperhatikan sesuatu yang aneh yang tidak dapat saya jelaskan, bukan? Singkatnya: pendekatan manual untuk menghitung interval kepercayaan dalam model regresi logistik, dan fungsi R confint()memberikan hasil yang berbeda. Saya telah melalui regresi logistik Terapan...
Saya mencoba menggunakan plot siluet untuk menentukan jumlah cluster di dataset saya. Dengan dataset Train , saya menggunakan kode matlab berikut Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s =...
Dalam penugasan terbaru, kami disuruh menggunakan PCA pada digit MNIST untuk mengurangi dimensi dari 64 (8 x 8 gambar) menjadi 2. Kami kemudian harus mengelompokkan digit menggunakan Gaussian Mixture Model. PCA hanya menggunakan 2 komponen utama tidak menghasilkan cluster yang berbeda dan akibatnya...
Dalam dataset saya, kami memiliki variabel diskrit kontinu dan alami. Saya ingin tahu apakah kita bisa melakukan pengelompokan hierarkis menggunakan kedua jenis variabel. Dan jika ya, ukuran jarak apa yang
Saya melakukan pengelompokan hierarkis pada data yang telah saya kumpulkan dan diproses dari dump data reddit di Google BigQuery. Proses saya adalah sebagai berikut: Dapatkan 1000 posting terbaru di / r / politik Kumpulkan semua komentar Memproses data dan menghitung n x mmatriks data (n:...
Saya memiliki dataset X yang memiliki 10 dimensi, 4 di antaranya adalah nilai diskrit. Faktanya, keempat variabel diskrit tersebut adalah ordinal, yaitu nilai yang lebih tinggi menyiratkan semantik yang lebih tinggi / lebih baik. 2 dari variabel-variabel diskrit ini bersifat kategorikal dalam arti...
Sejauh yang saya tahu, SOMs gaya Kohonen memiliki puncak kembali sekitar tahun 2005 dan belum melihat banyak bantuan baru-baru ini. Saya belum menemukan kertas yang mengatakan bahwa SOM telah digolongkan dengan metode lain, atau terbukti setara dengan yang lain (pada dimensi yang lebih tinggi,...
Latar Belakang : Saya ingin mengklasifikasikan area perumahan kota ke dalam kelompok berdasarkan karakteristik sosial-ekonomi mereka, termasuk kepadatan unit perumahan, kepadatan populasi, area ruang hijau, harga perumahan, jumlah sekolah / pusat kesehatan / pusat penitipan anak, dll. Saya ingin...
Saya telah menemukan literatur yang luas yang mengusulkan segala macam kriteria (misalnya Glenn et al. 1985 (pdf) dan Jung et al. 2002 (pdf)). Namun, sebagian besar tidak mudah diimplementasikan (setidaknya dari sudut pandang saya). Saya menggunakan scipy.cluster.hierarchy untuk mendapatkan...
Saya memiliki masalah berikut: Saya memiliki daftar kata yang sangat panjang, mungkin nama, nama keluarga, dll. Saya perlu mengelompokkan daftar kata ini, sehingga kata-kata yang serupa, misalnya kata-kata dengan jarak pengeditan (Levenshtein) yang serupa muncul di cluster yang sama. Misalnya...
Apa perbedaan dalam kesimpulan yang dapat dibuat dari analisis kelas laten (LCA) versus analisis cluster? Apakah benar bahwa LCA mengasumsikan variabel laten yang mendasari yang menimbulkan kelas, sedangkan analisis cluster adalah deskripsi empiris atribut berkorelasi dari algoritma clustering?...
Saya akan menjelaskan masalah saya dengan sebuah contoh. Misalkan Anda ingin memprediksi penghasilan seseorang yang diberikan beberapa atribut: {Usia, Jenis Kelamin, Negara, Wilayah, Kota}. Anda memiliki dataset pelatihan seperti itu train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3),...
Saya ingin memahami, apa perbedaan implementasi utama antara algoritma klaster standar dan k-means. Dalam setiap langkah, k-means menghitung jarak antara vektor elemen dan centroid cluster, dan menugaskan kembali dokumen ke cluster ini, yang centroid adalah yang terdekat. Kemudian, semua centroid...
Saya baru saja menemukan makalah ini , yang menjelaskan bagaimana menghitung pengulangan (alias reliabilitas, alias korelasi intraclass) dari pengukuran melalui pemodelan efek campuran. Kode R adalah: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...
[Judul awal "Pengukuran kesamaan untuk hierarki pohon clustering" kemudian diubah oleh @ttnphns untuk lebih mencerminkan topik] Saya melakukan sejumlah analisis kluster hierarkis pada kerangka data catatan pasien (misalnya mirip dengan