Salah satu masalah umum dalam ilmu data adalah mengumpulkan data dari berbagai sumber dalam format yang entah bagaimana dibersihkan (semi-terstruktur) dan menggabungkan metrik dari berbagai sumber untuk membuat analisis tingkat yang lebih tinggi. Melihat upaya orang lain, terutama pertanyaan lain di situs ini, tampaknya banyak orang di bidang ini melakukan pekerjaan yang agak berulang. Misalnya menganalisis tweet, posting facebook, artikel Wikipedia dll. Adalah bagian dari banyak masalah data besar.
Beberapa kumpulan data ini dapat diakses menggunakan API publik yang disediakan oleh situs penyedia, tetapi biasanya, beberapa informasi atau metrik yang berharga hilang dari API ini dan setiap orang harus melakukan analisis yang sama berulang-ulang. Misalnya, meskipun pengelompokan pengguna mungkin bergantung pada berbagai kasus penggunaan dan pemilihan fitur, tetapi pengelompokan basis pengguna Twitter / Facebook dapat berguna dalam banyak aplikasi Big Data, yang tidak disediakan oleh API atau tersedia secara publik dalam kumpulan data independen .
Apakah ada situs hosting kumpulan data atau indeks yang tersedia untuk umum yang berisi kumpulan data berharga yang dapat digunakan kembali dalam memecahkan masalah big data lainnya? Maksud saya sesuatu seperti GitHub (atau sekelompok situs / kumpulan data publik atau setidaknya daftar komprehensif) untuk ilmu data. Jika tidak, apa alasan untuk tidak memiliki platform untuk ilmu data? Nilai komersial data, perlu memperbarui set data, ...? Bisakah kita tidak memiliki model sumber terbuka untuk berbagi set data yang dirancang untuk ilmuwan data?
sumber
Jawaban:
Pada kenyataannya, ada daftar yang sangat masuk akal dari kumpulan data yang tersedia untuk umum, didukung oleh berbagai perusahaan / sumber.
Beberapa di antaranya adalah di bawah ini:
Sekarang, dua pertimbangan atas pertanyaan Anda. Pertama, tentang kebijakan berbagi basis data. Dari pengalaman pribadi, ada beberapa database yang tidak dapat dibuat tersedia untuk umum, baik untuk melibatkan pembatasan privasi (seperti untuk beberapa informasi jaringan sosial) atau untuk informasi pemerintah terkait (seperti database sistem kesehatan).
Poin lain menyangkut penggunaan / aplikasi dataset. Meskipun beberapa pangkalan dapat diolah kembali sesuai dengan kebutuhan aplikasi, akan lebih baik jika memiliki beberapa organisasi dataset yang bagus dengan sengaja. The taksonomi harus melibatkan analisis sosial grafik, pertambangan itemset, klasifikasi, dan banyak daerah penelitian lainnya mungkin ada.
sumber
Memperbarui:
Kaggle.com , rumah bagi sains data modern & penggemar pembelajaran mesin :), membuka repositori set datanya sendiri .
Selain sumber yang tercantum.
Beberapa set data jaringan sosial:
Ada banyak sumber yang terdaftar di Stats SE:
sumber
Ada banyak set data yang tersedia secara terbuka, satu yang sering dilupakan orang adalah data.gov . Seperti yang disebutkan sebelumnya, Freebase sangat bagus, demikian juga semua contoh yang diposting oleh @Rubens
sumber
Freebase adalah basis data berbasis komunitas yang mencakup banyak topik menarik dan berisi sekitar 2,5 miliar fakta dalam format yang dapat dibaca mesin. Ini juga memiliki API yang baik untuk melakukan kueri data.
Berikut ini adalah daftar kumpulan data terbuka lain yang dikompilasi: http://www.datapure.co/open-data-sets
sumber
Tautan berikut tersedia
Set Data Publik
Set Data Publik Google
Layanan Web Amazon
Mencari Data di Internet
sumber
Untuk data deret waktu khususnya, Quandl adalah sumber yang bagus - direktori yang mudah dijelajahi dari (sebagian besar) deret waktu bersih.
Salah satu fitur paling keren adalah harga saham data terbuka - yaitu data keuangan yang dapat diedit dengan gaya wiki, dan tidak dibebani oleh lisensi.
sumber
Enigma adalah repositori kumpulan data yang tersedia untuk umum. Paket gratisnya menawarkan pencarian data publik, dengan panggilan API 10k per bulan. Tidak semua database publik terdaftar, tetapi daftar ini cukup untuk kasus umum.
Saya menggunakannya untuk penelitian akademis dan menghemat banyak waktu.
Sumber data menarik lainnya adalah proyek @unitedstates , yang berisi data dan alat untuk mengumpulkannya, tentang Amerika Serikat (anggota Kongres, bentuk geografis ...).
sumber
Saya ingin menunjukkan Sensus Data Terbuka . Ini adalah inisiatif dari Open Knowledge Foundation berdasarkan kontribusi dari advokat data terbuka dan para ahli di seluruh dunia.
Nilai Open data Census adalah upaya terbuka, berbasis komunitas, dan sistematis untuk mengumpulkan dan memperbarui basis data kumpulan data secara global di negara dan, dalam beberapa kasus, seperti AS, di tingkat kota .
Juga, ini menyajikan kesempatan untuk membandingkan berbagai negara dan kota dalam bidang minat tertentu.
sumber
Ada juga sumber daya lain yang disediakan oleh The Guardian, British Daily di situs web mereka. Kumpulan data yang diterbitkan oleh Guardian Datablog semuanya diinangi. Kumpulan data yang terkait dengan akun Football Premier League Clubs, informasi Inflasi dan PDB Inggris, data penghargaan Grammy, dll. Kumpulan data tersedia di
Lebih banyak sumber daya. Beberapa set data dalam format R atau ada commad R untuk mengimpor data secara langsung ke R.
sumber
Google Custom Search
Anda dapat menggunakan Penelusuran Kustom Google untuk kumpulan data:
Google Custom Search: Kumpulan Data
Ini mencakup 230 sumber dan sumber meta set data, termasuk semua yang disebutkan dalam pertanyaan ini. Jangan ragu untuk mengecualikan .gov dan situs web lainnya dari hasil dengan menambahkan "-.gov" atau "-site.com" ke baris pencarian. Operator Pencarian Google lainnya bekerja.
Jangan ragu untuk menghubungi saya jika Anda memiliki ide untuk menambahkan situs web apa.
IOGDS
Layanan berikut mengkategorikan lebih dari 1.000.000 kumpulan data publik:
IOGDS: Pencarian Dataset Pemerintah Terbuka Internasional
sumber
Jawaban terlambat, tetapi di sini adalah daftar eklektik dari 100+ Set Data Menarik
Posting blog itu menyenangkan dan mudah dibaca (saya tidak punya afiliasi). Layak untuk memindai, dan mengikis beberapa dari atas:
Kata-kata terakhir dari setiap tahanan Texas dieksekusi sejak 1984
10.000 gambar kucing yang beranotasi
2,2 juta pertandingan catur
sumber
Saya telah menemukan tautan ini di Pusat Ilmu Data dengan daftar kumpulan data gratis: Kumpulan data besar tersedia secara gratis
sumber
Apakah Anda tahu tentang PUMA Tolok Ukur dan set data unduhan? https://sites.google.com/site/farazahmad/pumadatasetsets
Itu memang termasuk yang berikut:
sumber
Pemerintah Inggris menyediakan sumber data non-pribadi yang sangat baik yang dikumpulkan di seluruh departemen pemerintah: http://data.gov.uk
sumber
Saya baru di forum ini. Terlambat dalam menjawab pertanyaan ini. Saya telah memelihara (saya adalah salah satu pendiri) katalog portal data yang tersedia untuk umum. Ada lebih dari 1000 portal yang sekarang terdaftar dan mencakup di tingkat internasional, federal, negara bagian, kota dan akademik di seluruh dunia.
http://www.opengeocode.org/opendata/
sumber
Saya terkejut orang tidak menyebutkan ini, karena tampaknya cukup jelas: http://www.kaggle.com secara konsisten memiliki dataset baru dan sangat menarik. Informasi dianggap sebagai aset, sehingga seringkali perusahaan tidak ingin merilis data itu (ditambah masalah privasi). Kaggle memberi Anda data dan mereka berharap Anda memecahkan masalah bisnis dengan itu sebagai gantinya.
sumber
Set Data
Set Data Dari data yang luar biasa
sumber
Seperti yang Anda sebutkan, API adalah bagian yang sulit, bukan data. Quandl tampaknya menyelesaikan masalah ini dengan menyediakan lebih dari 10 juta kumpulan data yang tersedia untuk umum di bawah satu API yang mudah dan tenang. Jika pemrograman tidak cocok dengan Anda, ada alat gratis untuk membuat memuat data ke Excel sangat mudah. Selain itu, jika Anda melakukan menikmati pemrograman, ada beberapa perpustakaan asli di R, Python, Java dan lebih .
sumber
Untuk menambah daftar yang mungkin tidak pernah berakhir:
seperti yang disebutkan oleh cyndd, ada Wikidata ,
dan untuk pengetahuan terstruktur yang dikuratori, Wolfram Alpha .
sumber
Saya menemukan koleksi ini di Github. Koleksinya juga dikategorikan.
https://github.com/caesar0301/awesome-public-datasets
Dan untuk bagian tentang
Anda dapat merujuk panduan grup Leek ke berbagi data
sumber
Tidak semua data pemerintah terdaftar di data.gov - Sunlight Foundation mengumpulkan satu set spreadsheet pada bulan Februari yang menguraikan set data yang tersedia.
sumber
Satu sumber data lain yang tidak saya lihat tercantum dalam daftar adalah Proyek GDELT . Dari situs:
sumber
Subreddit ini mencantumkan banyak Kumpulan Data yang diketahui
Kumpulan Data Reddit
Ada banyak permintaan dataset pada subreddit itu, beberapa di antaranya telah dijawab.
sumber
Saya membuat repo github untuk ini. Kumpulan data tidak besar, tetapi merupakan contoh minimal yang dimaksudkan untuk berlatih dan mengeksplorasi teknik pemodelan prediktif yang kemudian dapat diperluas ke kumpulan data besar.
Machine Learning Problem Bible (MLPB)
Yang keren / unik tentang repo ini adalah bahwa setiap masalah ditandai dengan tag seperti [multi-class], [unbalanced data], [regresi], dll. Sehingga memudahkan untuk menemukan jenis masalah / dataset tertentu.
sumber
Eurostats http://ec.europa.eu/eurostat dan Bank Sentral Eropa https://www.ecb.europa.eu/stats/html/index.en.html menyediakan beragam set data yang sering saya gunakan di my proyek kerja.
sumber
Selain semua kumpulan data ini, jika Anda tertarik pada data yang terkait dengan India. Situs resmi Pemerintah India adalah
Ini menyediakan kumpulan data dari berbagai departemen pemerintah India yang dapat digunakan dengan baik untuk Analisis Data Besar & Pembelajaran Mesin.
sumber
Yahoo baru saja merilis dataset besar untuk komunitas riset. Bersenang senang lah!
sumber
Hanya kita memuat paket MASS di R kita mengakses beberapa kerangka data atau set data.
install.packages ("MASS") membutuhkan ("MASS")
sumber
3 set data dari https://www.jc-bingo.com/about
sumber
Jelas, ada satu set besar database publik.
Satu yang belum disebutkan, adalah dari FAO ( Organisasi Pangan dan Pertanian Perserikatan Bangsa-Bangsa), dapat diakses di:
http://www.fao.org/faostat/
Ini berisi data tentang produksi makanan untuk negara-negara di seluruh dunia.
sumber