Saya mencari dataset datapoint 2 dimensi (setiap datapoint adalah vektor dari dua nilai (x, y)) mengikuti distribusi dan bentuk yang berbeda. Kode untuk menghasilkan data seperti itu juga akan sangat membantu. Saya ingin menggunakannya untuk merencanakan / memvisualisasikan kinerja beberapa algoritma pengelompokan. Berikut ini beberapa contohnya:
9
Jawaban:
R hadir dengan banyak kumpulan data, dan sepertinya itu bukan masalah besar untuk mereproduksi sebagian besar contoh yang Anda kutip dengan beberapa baris kode. Anda juga dapat menemukan paket mlbench berguna, khususnya kumpulan data sintetis yang dimulai dengan
mlbench.*
. Beberapa ilustrasi diberikan di bawah ini.Anda akan menemukan contoh tambahan dengan melihat Tampilan Tugas Cluster di CRAN. Sebagai contoh, paket fpc memiliki generator bawaan untuk dataset benchmark clustered "face-shaped" (
rFace
).Pertimbangan serupa berlaku untuk Python, di mana Anda akan menemukan tes benchmark yang menarik dan kumpulan data untuk pengelompokan dengan scikit-learn .
Repositori Mesin Pembelajaran UCI juga menyimpan banyak set data , tetapi Anda lebih baik mensimulasikan data sendiri dengan bahasa pilihan Anda.
sumber
Berikut adalah beberapa set data yang dirancang tepat untuk tugas ini:
The Problem Fundamental Clustering Suite oleh Ultsch
sumber
Benchmark pengelompokan mainan ini berisi berbagai set data dalam format ARFF (dapat dengan mudah dikonversi ke CSV), sebagian besar dengan label kebenaran dasar. Patokan harus memvalidasi sifat dasar yang diinginkan dari algoritma pengelompokan. Sebagian besar set data berasal dari makalah pengelompokan seperti:
sumber
ELKI dilengkapi dengan beberapa set data (periksa juga tes unit, mereka berisi lebih banyak daripada yang ada di situs web, bersama dengan pengaturan parameter).
Ini juga termasuk generator data yang cukup fleksibel.
sumber
Berikut adalah generator klaster yang dapat disesuaikan. Ini hanya membahas kelas set data tertentu, tetapi pasti dapat digunakan untuk investigasi algoritma cluster.
Berikut adalah contoh jenis cluster yang dapat dibuat:
Afiliasi cluster disimpan dalam file teks. Kode ini open source di bawah lisensi MIT.
sumber
Skrip Matlab ini menghasilkan data 2D untuk pengelompokan. Ini menerima beberapa parameter sehingga data yang dihasilkan sesuai dengan kebutuhan pengguna.
sumber
Saya tidak percaya bahwa tidak ada yang menyebutkan data Iris Fisher.
Saya tidak berpikir saya telah melihat teknik pengelompokan yang tidak menggunakan data iris sebagai contoh.
Di r, cukup ketik "iris" untuk mengakses data.
Berikut adalah contoh plot iris yang bagus (dan khas): http://ygc.name/2011/12/24/ml-class-7-kmeans-clustering/
sumber