Saya ingin mengelompokkan ~ 22.000 poin. Banyak algoritma pengelompokan bekerja lebih baik dengan tebakan awal kualitas yang lebih tinggi. Alat apa yang ada yang dapat memberi saya ide bagus tentang bentuk data yang kasar?
Saya ingin dapat memilih metrik jarak saya sendiri, jadi sebuah program yang saya dapat memberi makan daftar jarak berpasangan akan baik-baik saja. Saya ingin dapat melakukan sesuatu seperti menyorot suatu wilayah atau klaster pada layar dan mendapatkan daftar titik data mana di daerah itu.
Perangkat lunak bebas lebih disukai, tetapi saya sudah memiliki SAS dan MATLAB.
Menjelajahi hasil pengelompokan dalam dimensi tinggi dapat dilakukan di R menggunakan paket clusterfly dan gcExplorer . Cari lebih banyak di sini .
sumber
(Berbulan-bulan kemudian), cara yang bagus untuk menggambarkan k-cluster dan untuk melihat efek dari berbagai k adalah dengan membangun Pohon Spanning Minimum dan melihat tepi terpanjang. Sebagai contoh,
Di sini ada 10 kluster, dengan 9 ujung terpanjang 855 899 942 954 1003 1005 1069 1134 1267.
Untuk 9 kluster, tutup tepi cyan 855; untuk 8, ungu 899; dan seterusnya.
- Wayne, Algoritma Greedy .
22000 poin, jarak 242M berpasangan, ambil ~ 1 gigabyte (float32): mungkin cocok.
Untuk melihat pohon atau grafik dimensi tinggi dalam 2d, lihat Penskalaan Multidimensi (juga dari Kruskal), dan literatur besar tentang pengurangan dimensi. Namun, dalam redup> 20 mengatakan, sebagian besar jarak akan dekat median, jadi saya percaya pengurangan dimensi tidak dapat bekerja di sana
sumber
Saya memiliki pengalaman yang baik dengan KNIME selama salah satu proyek saya. Ini adalah solusi yang sangat baik untuk penambangan eksplorasi cepat dan grafik. Selain itu ia menyediakan modul R dan Weka integrasi tanpa batas.
sumber
Lihat juga ELKI , perangkat lunak penambangan data sumber terbuka. Wikimedia commons memiliki galeri dengan gambar yang diproduksi dengan ELKI , banyak di antaranya terkait dengan analisis cluster.
sumber
Lihatlah Cluster 3.0 . Saya tidak yakin apakah itu akan melakukan semua yang Anda inginkan, tetapi cukup baik didokumentasikan dan memungkinkan Anda memilih dari beberapa metrik jarak. Bagian visualisasi adalah melalui program terpisah yang disebut Java TreeView ( tangkapan layar ).
sumber
GGobi memang terlihat menarik untuk ini. Pendekatan lain mungkin untuk memperlakukan kesamaan Anda / matriks jarak terbalik sebagai matriks jaringan adjacency dan memasukkannya ke dalam rutinitas analisis jaringan (misalnya, baik igraph di R atau mungkin Pajek). Dengan pendekatan ini saya akan bereksperimen dengan memotong jarak simpul menjadi ikatan biner di berbagai titik potong.
sumber
Weka adalah program open source untuk penambangan data (wirtten dan extensible di Jawa), Orange adalah program open source dan perpustakaan untuk penambangan data dan pembelajaran mesin (ditulis dengan Python). Keduanya memungkinkan eksplorasi visual data multidimensi yang nyaman dan efisien
sumber
Perangkat lunak numerik gratis DataMelt termasuk perpustakaan Java yang disebut JMinHep. Silakan lihat manual di bagian "Pengelompokan data". Ini menyediakan GUI untuk memvisualisasikan titik data multidimensi di XY, dan menjalankan sejumlah algoritma pengelompokan data.
sumber