Mencari data buatan 2D untuk menunjukkan properti algoritma pengelompokan

9

Saya mencari dataset datapoint 2 dimensi (setiap datapoint adalah vektor dari dua nilai (x, y)) mengikuti distribusi dan bentuk yang berbeda. Kode untuk menghasilkan data seperti itu juga akan sangat membantu. Saya ingin menggunakannya untuk merencanakan / memvisualisasikan kinerja beberapa algoritma pengelompokan. Berikut ini beberapa contohnya:

steffen
sumber
Saya memilih cw;)
steffen
Sebuah pertanyaan serupa di baris dataset tertentu telah ditutup sini: stats.stackexchange.com/questions/38928/...
mobil jenazah
Untuk SPSS, saya telah menulis makro yang menghasilkan cluster (kunjungi halaman saya, lihat "Hasilkan cluster"). Namun, itu tidak menghasilkan bentuk megah seperti cincin atau spiral.
ttnphns

Jawaban:

11

R hadir dengan banyak kumpulan data, dan sepertinya itu bukan masalah besar untuk mereproduksi sebagian besar contoh yang Anda kutip dengan beberapa baris kode. Anda juga dapat menemukan paket mlbench berguna, khususnya kumpulan data sintetis yang dimulai dengan mlbench.*. Beberapa ilustrasi diberikan di bawah ini.

masukkan deskripsi gambar di sini

Anda akan menemukan contoh tambahan dengan melihat Tampilan Tugas Cluster di CRAN. Sebagai contoh, paket fpc memiliki generator bawaan untuk dataset benchmark clustered "face-shaped" ( rFace).

masukkan deskripsi gambar di sini

Pertimbangan serupa berlaku untuk Python, di mana Anda akan menemukan tes benchmark yang menarik dan kumpulan data untuk pengelompokan dengan scikit-learn .

Repositori Mesin Pembelajaran UCI juga menyimpan banyak set data , tetapi Anda lebih baik mensimulasikan data sendiri dengan bahasa pilihan Anda.

chl
sumber
2

Benchmark pengelompokan mainan ini berisi berbagai set data dalam format ARFF (dapat dengan mudah dikonversi ke CSV), sebagian besar dengan label kebenaran dasar. Patokan harus memvalidasi sifat dasar yang diinginkan dari algoritma pengelompokan. Sebagian besar set data berasal dari makalah pengelompokan seperti:

  • BIRCH - Zhang, Tian, ​​Raghu Ramakrishnan, dan Miron Livny. "BIRCH: metode pengelompokan data yang efisien untuk database yang sangat besar." ACM SIGMOD Record. Vol. 25. No. 2. ACM, 1996.
  • CURE - Guha, Sudipto, Rajeev Rastogi, dan Kyuseok Shim. "CURE: algoritma pengelompokan yang efisien untuk database besar." ACM SIGMOD Record. Vol. 27. No. 2. ACM, 1998.
  • Bunglon - Karypis, George, Eui-Hong Han, dan Vipin Kumar. "Chameleon: Pengelompokan hierarki menggunakan pemodelan dinamis." Komputer 32.8 (1999): 68-75.
  • The Problem Fundamental Clustering Suite - Ultsch, A .: Clustering dengan SOM: U * C, In Proc. Lokakarya tentang Self-Organizing Maps, Paris, France, (2005), hlm. 75-82
  • MOCK - Handl, Julia, dan Joshua Knowles. "Suatu pendekatan evolusi untuk pengelompokan multi-tujuan." Komputasi Evolusi, Transaksi IEEE pada 11.1 (2007): 56-76.
  • Pengelompokan spektral berbasis jalur yang kuat - Chang, Hong, dan Dit-Yan Yeung. "Pengelompokan spektral berbasis jalur yang kuat." Pengenalan Pola 41.1 (2008): 191-203.

data karypis data cluto

Tombart
sumber
1

ELKI dilengkapi dengan beberapa set data (periksa juga tes unit, mereka berisi lebih banyak daripada yang ada di situs web, bersama dengan pengaturan parameter).

Ini juga termasuk generator data yang cukup fleksibel.

Memiliki QUIT - Anony-Mousse
sumber
1

Berikut adalah generator klaster yang dapat disesuaikan. Ini hanya membahas kelas set data tertentu, tetapi pasti dapat digunakan untuk investigasi algoritma cluster.

Berikut adalah contoh jenis cluster yang dapat dibuat:

http://i.stack.imgur.com/vrCG5.png

Afiliasi cluster disimpan dalam file teks. Kode ini open source di bawah lisensi MIT.

Felix Dobslaw
sumber
1

Skrip Matlab ini menghasilkan data 2D untuk pengelompokan. Ini menerima beberapa parameter sehingga data yang dihasilkan sesuai dengan kebutuhan pengguna.

salah
sumber
0

Saya tidak percaya bahwa tidak ada yang menyebutkan data Iris Fisher.

Saya tidak berpikir saya telah melihat teknik pengelompokan yang tidak menggunakan data iris sebagai contoh.

Di r, cukup ketik "iris" untuk mengakses data.

Berikut adalah contoh plot iris yang bagus (dan khas): http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/

geneorama
sumber