Pertanyaan yang diberi tag clustering

14

Apakah ada algoritma pengelompokan berbasis non-jarak?

Tampaknya untuk K-means dan algoritma terkait lainnya, pengelompokan didasarkan pada penghitungan jarak antara titik. Apakah ada yang berfungsi

14

Metrik

Apakah ada yang menggunakan metrik atau L .5 untuk pengelompokan, bukan L 2 ? Aggarwal et al., Tentang perilaku mengejutkan metrik jarak dalam ruang dimensi tinggi mengatakan (pada 2001) ituL1L1L_1L.5L.5L_.5L2L2L_2 secara konsisten lebih disukai daripada metrik jarak Euclidean L 2 untuk...

clustering distance-functions rule-of-thumb

14

k-means implementasi dengan custom distance matrix dalam input

Adakah yang bisa menunjukkan saya implementasi k-means (akan lebih baik jika di matlab) yang dapat mengambil matriks jarak dalam input? Implementasi matlab standar membutuhkan matriks observasi dalam input dan tidak mungkin mengubah ukuran kesamaan secara kustom.

clustering matlab k-means

14

Apa "algoritme panas" untuk pembelajaran mesin?

Ini adalah pertanyaan naif dari seseorang yang mulai belajar belajar mesin. Saya membaca hari ini buku "Pembelajaran Mesin: Perspektif algoritmik" dari Marsland. Saya merasa buku ini bermanfaat sebagai pengantar, tetapi sekarang saya ingin membahas algoritma canggih, yang saat ini memberikan hasil...

machine-learning clustering bioinformatics

14

Dapatkah seseorang tolong jelaskan pembengkokan waktu dinamis untuk menentukan kesamaan deret waktu?

Saya mencoba memahami ukuran kelengkungan waktu dinamis untuk membandingkan deret waktu bersama. Saya memiliki tiga dataset deret waktu seperti ini: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366,...

r time-series clustering

14

Bagaimana saya bisa mengelompokkan data numerik menjadi “kurung” alami? (mis. penghasilan)

Berikut ini menjelaskan apa yang saya coba capai, tetapi mungkin pernyataan masalah alternatif dapat menggambarkan tujuan saya: aku ingin bagilah angka-angka berikut ke dalam kelompok-kelompok di mana varians angka-angka dalam setiap kelompok tidak terlalu besar, dan perbedaan antara rata-rata...

clustering relative-distribution

14

k-means vs k-median?

Saya tahu ada algoritma pengelompokan k-means dan k-median. Satu yang menggunakan mean sebagai pusat cluster dan yang lainnya menggunakan median. Pertanyaan saya adalah: kapan / di mana

clustering k-means

14

Bagaimana cara mengukur bentuk cluster?

Saya tahu bahwa pertanyaan ini tidak didefinisikan dengan baik, tetapi beberapa cluster cenderung berbentuk elips atau terletak di ruang dimensi yang lebih rendah sementara yang lain memiliki bentuk nonlinear (dalam contoh 2D atau 3D). Apakah ada ukuran nonlinier (atau "bentuk") dari...

unsupervised-learning clustering

14

Mengapa kita menggunakan k-means daripada algoritma lainnya?

Saya meneliti tentang k-means dan ini adalah apa yang saya dapatkan: k-means adalah salah satu algoritma paling sederhana yang menggunakan metode pembelajaran tanpa pengawasan untuk memecahkan masalah pengelompokan yang diketahui. Ini bekerja sangat baik dengan kumpulan data besar. Namun, ada juga...

clustering data-mining algorithms k-means

13

Memahami perbandingan hasil pengelompokan

Saya bereksperimen dengan mengklasifikasikan data ke dalam kelompok. Saya cukup baru dalam topik ini, dan mencoba memahami output dari beberapa analisis. Menggunakan contoh dari Quick-R , beberapa Rpaket disarankan. Saya telah mencoba menggunakan dua paket ini ( fpcmenggunakan kmeansfungsi, dan...

r clustering

13

Distribusi probabilitas pengelompokan - metode & metrik?

Saya memiliki beberapa titik data, masing-masing berisi 5 vektor hasil diskrit diaglomerasi, setiap hasil vektor dihasilkan oleh distribusi yang berbeda, (jenis spesifik yang saya tidak yakin, tebakan terbaik saya adalah Weibull, dengan parameter bentuk bervariasi di sekitar eksponensial ke daya...

distributions clustering feature-selection kolmogorov-smirnov k-means

13

Rutin untuk memilih eps dan minPts untuk DBSCAN

DBSCAN adalah algoritma pengelompokan yang paling banyak dikutip menurut beberapa literatur dan dapat menemukan bentuk cluster berdasarkan kepadatan. Ini memiliki dua parameter eps (sebagai radius lingkungan) dan minPts (sebagai tetangga minimum untuk mempertimbangkan titik sebagai titik inti) yang...

clustering dbscan

13

Apa yang Anda lakukan ketika tidak ada titik siku untuk pengelompokan kmeans

Saya telah belajar bahwa ketika memilih sejumlah cluster, Anda harus mencari titik siku untuk nilai K. yang berbeda. Saya telah merencanakan nilai withinss untuk nilai k dari 1 hingga 10, tetapi saya tidak melihat dengan jelas siku. Apa yang Anda lakukan dalam kasus seperti

clustering k-means

13

Bagaimana saya dapat mengkonversi jarak (Euclidean) ke skor kesamaan

Saya menggunakan means clustering untuk mengelompokkan suara speaker. Ketika saya membandingkan ucapan dengan data speaker yang dikelompokkan, saya mendapatkan distorsi rata-rata (jarak Euclidean). Jarak ini bisa dalam kisaran [ 0 , ∞ ] . Saya ingin mengonversi jarak ini ke skor kesamaan [ 0 , 1 ]...

clustering k-means distance euclidean

13

Apakah ketimpangan segitiga terpenuhi untuk jarak berbasis korelasi ini?

Untuk pengelompokan hierarkis saya sering melihat dua "metrik" berikut (mereka tidak berbicara) untuk mengukur jarak antara dua variabel acak XXX dan YYY : \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &=...

correlation clustering distance metric

13

Menginisialisasi pusat K-means dengan cara subsampel acak dari dataset?

Jika saya memiliki dataset tertentu, seberapa pintarkah untuk menginisialisasi pusat cluster dengan menggunakan sampel acak dari dataset tersebut? Misalnya, saya ingin 5 clusters. Saya 5 random sampleskatakan, size=20%dari dataset asli. Bisakah saya mengambil rata-rata dari masing-masing 5 sampel...

clustering k-means unsupervised-learning

13

Teknik pengelompokan yang sesuai untuk data temporal?

Saya memiliki data sementara frekuensi aktivitas. Saya ingin mengidentifikasi cluster dalam data yang menunjukkan periode waktu yang berbeda dengan tingkat aktivitas yang sama. Idealnya saya ingin mengidentifikasi kluster tanpa menentukan jumlah kluster apriori. Apa teknik pengelompokan yang...

machine-learning clustering

13

Bagaimana jarak Gower menghitung perbedaan antara variabel biner '?

Saya memiliki 17 numerik dan 5 variabel biner (0-1), dengan 73 sampel dalam dataset saya. Saya perlu menjalankan analisis kluster. Saya tahu bahwa jarak Gower adalah metrik yang baik untuk kumpulan data dengan variabel campuran. Namun, saya tidak bisa mengerti bagaimana jarak Gower menghitung...

clustering distance mixed-type-data

13

Terdepan dalam deduplikasi

Apa metode mutakhir dalam deduplikasi rekor? Deduplikasi juga kadang-kadang disebut: record linkage, resolusi entitas, resolusi identitas, gabungan / pembersihan. Saya tahu misalnya tentang CBLOCK [1]. Saya akan sangat menghargai jika jawaban juga termasuk referensi ke perangkat lunak yang ada...

clustering data-cleaning record-linkage

13

Cluster Big Data dalam R dan Apakah Pengambilan Sampel Relevan?

Saya baru dalam ilmu data dan memiliki masalah menemukan cluster dalam kumpulan data dengan 200.000 baris dan 50 kolom di R. Karena data memiliki variabel numerik dan nominal, metode seperti K-means yang menggunakan ukuran jarak Euclidean sepertinya bukan pilihan yang tepat. Jadi saya beralih ke...

r clustering sampling large-data