Ada beberapa dataset klasik untuk tugas klasifikasi / regresi pembelajaran mesin. Yang paling populer adalah:
- Set Data Bunga Iris ;
- Set Data Titanic ;
- Mobil Tren Motor ;
- dll.
Tetapi apakah ada yang tahu dataset serupa untuk analisis jaringan / teori grafik? Lebih konkret - Saya mencari dataset standar Gold untuk membandingkan / mengevaluasi / belajar:
- langkah-langkah sentralitas;
- algoritma pengelompokan jaringan.
Saya tidak memerlukan daftar jaringan / grafik yang tersedia untuk umum, tetapi beberapa set data yang benar-benar harus diketahui.
EDIT:
Cukup sulit untuk menyediakan fitur yang tepat untuk "set data standar emas", tetapi berikut adalah beberapa pemikiran. Saya pikir, dataset klasik nyata harus memenuhi kriteria ini:
- Referensi berganda dalam artikel dan buku teks;
- Inklusi dalam paket perangkat lunak analisis jaringan yang terkenal;
- Waktu keberadaan yang memadai;
- Penggunaan dalam sejumlah kursus tentang analisis grafik.
Mengenai bidang minat saya, saya juga perlu kelas berlabel untuk simpul dan / atau "skor otoritas" yang sudah ditentukan sebelumnya (yaitu perkiraan sentralitas). Setelah mengajukan pertanyaan ini, saya terus mencari, dan berikut adalah beberapa contoh yang cocok:
- Zachary's Karate Club : diperkenalkan pada tahun 1977, dikutip lebih dari 1,5 ribu kali (menurut Google Cendekia), vertex memiliki atribut Faction (yang dapat digunakan untuk pengelompokan).
- Jaringan Kolaborasi Erdos : sayangnya, saya belum menemukan jaringan ini dalam bentuk data-file, tetapi ini agak terkenal, dan jika seseorang akan memperkaya jaringan dengan data spesialisasi matematikawan, itu juga dapat digunakan untuk menguji algoritma pengelompokan.
Jawaban:
Apa yang Anda cari dapat ditemukan di KONECT (situs web sedang down saat saya menulis ini tetapi harus segera diperbaiki!). Ini hampir pengumpulan data yang paling komprehensif untuk analisis jaringan. Tetapi pertanyaannya adalah mana yang lebih standar untuk digunakan?
Yah, tidak ada jawaban yang jelas kecuali dari Karate Club Zachary!
Jika Anda melakukan tinjauan literatur dalam algoritme Deteksi Komunitas Anda akan melihat bahwa hampir semua makalah yang bersinar menggunakan jaringan yang berbeda. Saran saya akan melakukan apa yang Andrea Lancichinetti dan Santo Fortunato lakukan untuk pembandingan grafik. Mereka mengusulkan beberapa algoritma pembuatan grafik benchmark misalnya yang ini .
Semoga bermanfaat :)
sumber
Mungkin Anda dapat memeriksa di sini - http://snap.stanford.edu/data/
Untuk setiap kumpulan data, Anda juga akan melihat referensi karya di mana mereka telah digunakan
sumber
Satu-satunya hal yang saya ketahui adalah data benchmark untuk Graph Databases, seperti Neo4j.
Anda dapat menemukan tautan yang mirip dengan ini: http://istc-bigdata.org/index.php/benchmarking-graph-databases/
di mana Anda dapat menemukan data untuk menguji analisis jaringan dan teori grafik.
Selanjutnya, Anda bisa bermain dengan API Twitter / Facebook untuk mengumpulkan data Anda sendiri. Ini juga merupakan saran jika Anda tidak menemukan data yang Anda cari.
sumber