Tampaknya untuk K-means dan algoritma terkait lainnya, pengelompokan didasarkan pada penghitungan jarak antara titik. Apakah ada yang berfungsi
Tampaknya untuk K-means dan algoritma terkait lainnya, pengelompokan didasarkan pada penghitungan jarak antara titik. Apakah ada yang berfungsi
Apakah ada yang menggunakan metrik atau L .5 untuk pengelompokan, bukan L 2 ? Aggarwal et al., Tentang perilaku mengejutkan metrik jarak dalam ruang dimensi tinggi mengatakan (pada 2001) ituL1L1L_1L.5L.5L_.5L2L2L_2 secara konsisten lebih disukai daripada metrik jarak Euclidean L 2 untuk...
Adakah yang bisa menunjukkan saya implementasi k-means (akan lebih baik jika di matlab) yang dapat mengambil matriks jarak dalam input? Implementasi matlab standar membutuhkan matriks observasi dalam input dan tidak mungkin mengubah ukuran kesamaan secara kustom.
Ini adalah pertanyaan naif dari seseorang yang mulai belajar belajar mesin. Saya membaca hari ini buku "Pembelajaran Mesin: Perspektif algoritmik" dari Marsland. Saya merasa buku ini bermanfaat sebagai pengantar, tetapi sekarang saya ingin membahas algoritma canggih, yang saat ini memberikan hasil...
Saya mencoba memahami ukuran kelengkungan waktu dinamis untuk membandingkan deret waktu bersama. Saya memiliki tiga dataset deret waktu seperti ini: T1 <- structure(c(0.000213652387565, 0.000535045478866, 0, 0, 0.000219346347883, 0.000359669104424, 0.000269469145783, 0.00016051364366,...
Berikut ini menjelaskan apa yang saya coba capai, tetapi mungkin pernyataan masalah alternatif dapat menggambarkan tujuan saya: aku ingin bagilah angka-angka berikut ke dalam kelompok-kelompok di mana varians angka-angka dalam setiap kelompok tidak terlalu besar, dan perbedaan antara rata-rata...
Saya tahu ada algoritma pengelompokan k-means dan k-median. Satu yang menggunakan mean sebagai pusat cluster dan yang lainnya menggunakan median. Pertanyaan saya adalah: kapan / di mana
Saya tahu bahwa pertanyaan ini tidak didefinisikan dengan baik, tetapi beberapa cluster cenderung berbentuk elips atau terletak di ruang dimensi yang lebih rendah sementara yang lain memiliki bentuk nonlinear (dalam contoh 2D atau 3D). Apakah ada ukuran nonlinier (atau "bentuk") dari...
Saya meneliti tentang k-means dan ini adalah apa yang saya dapatkan: k-means adalah salah satu algoritma paling sederhana yang menggunakan metode pembelajaran tanpa pengawasan untuk memecahkan masalah pengelompokan yang diketahui. Ini bekerja sangat baik dengan kumpulan data besar. Namun, ada juga...
Saya bereksperimen dengan mengklasifikasikan data ke dalam kelompok. Saya cukup baru dalam topik ini, dan mencoba memahami output dari beberapa analisis. Menggunakan contoh dari Quick-R , beberapa Rpaket disarankan. Saya telah mencoba menggunakan dua paket ini ( fpcmenggunakan kmeansfungsi, dan...
Saya memiliki beberapa titik data, masing-masing berisi 5 vektor hasil diskrit diaglomerasi, setiap hasil vektor dihasilkan oleh distribusi yang berbeda, (jenis spesifik yang saya tidak yakin, tebakan terbaik saya adalah Weibull, dengan parameter bentuk bervariasi di sekitar eksponensial ke daya...
DBSCAN adalah algoritma pengelompokan yang paling banyak dikutip menurut beberapa literatur dan dapat menemukan bentuk cluster berdasarkan kepadatan. Ini memiliki dua parameter eps (sebagai radius lingkungan) dan minPts (sebagai tetangga minimum untuk mempertimbangkan titik sebagai titik inti) yang...
Saya telah belajar bahwa ketika memilih sejumlah cluster, Anda harus mencari titik siku untuk nilai K. yang berbeda. Saya telah merencanakan nilai withinss untuk nilai k dari 1 hingga 10, tetapi saya tidak melihat dengan jelas siku. Apa yang Anda lakukan dalam kasus seperti
Saya menggunakan means clustering untuk mengelompokkan suara speaker. Ketika saya membandingkan ucapan dengan data speaker yang dikelompokkan, saya mendapatkan distorsi rata-rata (jarak Euclidean). Jarak ini bisa dalam kisaran [ 0 , ∞ ] . Saya ingin mengonversi jarak ini ke skor kesamaan [ 0 , 1 ]...
Untuk pengelompokan hierarkis saya sering melihat dua "metrik" berikut (mereka tidak berbicara) untuk mengukur jarak antara dua variabel acak XXX dan YYY : \newcommand{\Cor}{\mathrm{Cor}} d1(X,Y)d2(X,Y)=1−|Cor(X,Y)|,=1−(Cor(X,Y))2d1(X,Y)=1−|Cor(X,Y)|,d2(X,Y)=1−(Cor(X,Y))2\begin{align} d_1(X,Y) &=...
Jika saya memiliki dataset tertentu, seberapa pintarkah untuk menginisialisasi pusat cluster dengan menggunakan sampel acak dari dataset tersebut? Misalnya, saya ingin 5 clusters. Saya 5 random sampleskatakan, size=20%dari dataset asli. Bisakah saya mengambil rata-rata dari masing-masing 5 sampel...
Saya memiliki data sementara frekuensi aktivitas. Saya ingin mengidentifikasi cluster dalam data yang menunjukkan periode waktu yang berbeda dengan tingkat aktivitas yang sama. Idealnya saya ingin mengidentifikasi kluster tanpa menentukan jumlah kluster apriori. Apa teknik pengelompokan yang...
Saya memiliki 17 numerik dan 5 variabel biner (0-1), dengan 73 sampel dalam dataset saya. Saya perlu menjalankan analisis kluster. Saya tahu bahwa jarak Gower adalah metrik yang baik untuk kumpulan data dengan variabel campuran. Namun, saya tidak bisa mengerti bagaimana jarak Gower menghitung...
Apa metode mutakhir dalam deduplikasi rekor? Deduplikasi juga kadang-kadang disebut: record linkage, resolusi entitas, resolusi identitas, gabungan / pembersihan. Saya tahu misalnya tentang CBLOCK [1]. Saya akan sangat menghargai jika jawaban juga termasuk referensi ke perangkat lunak yang ada...
Saya baru dalam ilmu data dan memiliki masalah menemukan cluster dalam kumpulan data dengan 200.000 baris dan 50 kolom di R. Karena data memiliki variabel numerik dan nominal, metode seperti K-means yang menggunakan ukuran jarak Euclidean sepertinya bukan pilihan yang tepat. Jadi saya beralih ke...