Saya telah bekerja pada metode baru untuk menganalisis dan mengurai dataset untuk mengidentifikasi dan mengisolasi subkelompok populasi tanpa mengetahui karakteristik subkelompok mana pun. Sementara metode ini bekerja cukup baik dengan sampel data buatan (yaitu kumpulan data yang dibuat khusus untuk tujuan mengidentifikasi dan memisahkan subset populasi), saya ingin mencoba mengujinya dengan data langsung.
Apa yang saya cari adalah sumber data yang tersedia secara bebas (yaitu non-rahasia, non-eksklusif). Lebih disukai yang mengandung distribusi bimodal atau multimodal atau jelas terdiri dari beberapa himpunan bagian yang tidak dapat dengan mudah dipisahkan melalui cara tradisional. Ke mana saya akan pergi untuk mencari informasi seperti itu?
sumber
Jawaban:
Lihat juga mesin UCI yang mempelajari Penyimpanan Data.
http://archive.ics.uci.edu/ml/
sumber
Daftar berikut berisi banyak set data yang Anda mungkin tertarik:
sumber
Lihat respons saya terhadap "Kumpulan Data untuk Menjalankan Analisis Statistik" yang mengacu pada kumpulan data di R.
sumber
Bank Dunia menawarkan cukup banyak data menarik dan baru-baru ini sangat aktif dalam mengembangkan API yang bagus untuk itu.
Juga, komugrat proyek memiliki daftar menarik yang tersedia.
Untuk kepala data terkait kesehatan AS untuk Gudang Indikator Kesehatan .
Blog Daniel Lemire menunjukkan beberapa contoh menarik (kebanyakan disesuaikan dengan penelitian DB) termasuk Canadian Sensus 1880 dan laporan cloud synoptic .
Dan untuk hari ini (03/04/2012) catatan sensus US 1940 juga tersedia untuk diunduh.
sumber
Gapminder memiliki nomor (430 pada tampilan terakhir) dari kumpulan data, yang mungkin atau mungkin tidak berguna bagi Anda.
sumber
MLComp memiliki beberapa set data yang menarik, dan sebagai bonus, algoritma Anda akan mendapat peringkat jika Anda mengunggahnya.
sumber
Tempat yang baik untuk melihat adalah Perpustakaan Data dan Cerita Universitas Carnegie Mellon atau DASL , yang berisi file data yang "menggambarkan penggunaan metode statistik dasar ... Contoh yang baik dapat membuat pelajaran tentang metode statistik tertentu yang jelas dan relevan. DASL adalah dirancang untuk membantu para guru menemukan dan mengidentifikasi datafile untuk pengajaran. Kami berharap bahwa DASL juga akan berfungsi sebagai arsip untuk kumpulan data dari literatur statistik. "
sumber
Mulai R dan ketik
data()
. Ini akan menampilkan semua dataset di jalur pencarian. Banyak set data tambahan tersedia dalam paket tambahan. Sebagai contoh, ada beberapa dataset ilmu sosial dunia nyata yang menarik dalamAER
paket.sumber
NIST menyediakan arsip Dataset Referensi .
sumber
http://www.reddit.com/r/datasets dan juga, http://www.reddit.com/r/opendata keduanya berisi daftar pointer yang terus bertambah ke berbagai dataset.
sumber
Jaringan Stack Exchange sekarang memiliki situs baru, Open Data (dalam versi beta per 5 Maret 2015), didedikasikan untuk data. Ini menggambarkan dirinya sebagai:
"Data terbuka" mengacu pada kumpulan data yang "tersedia secara bebas bagi semua orang untuk digunakan dan diterbitkan ulang sesuai keinginan, tanpa batasan dari hak cipta, paten, atau mekanisme kontrol lainnya" ( Wikipedia ). Namun, situs tersebut tampaknya menerima permintaan untuk dataset tertutup .
sumber
Timetrik menyediakan antarmuka web ke data dan menyediakan daftar set data yang tersedia untuk umum yang mereka gunakan
sumber
Menambahkan pasangan ke daftar:
Banyak data keuangan yang mendalam tentang perusahaan yang diperdagangkan secara publik, akan kembali beberapa dekade: http://www.mergent.com/servius
Informasi lengkap tentang 16+ juta bisnis di AS: http://compass.webservius.com
Keduanya tersedia melalui API REST dan memiliki rencana uji coba gratis.
sumber
Ini daftar lain .
sumber
Ini mungkin daftar paling lengkap yang akan Anda temukan: Beberapa Kumpulan Data Tersedia di Web
sumber
Peter Skomoroch menyimpan daftar dataset di http://www.datawrangling.com/some-datasets-available-on-the-web . Banyak tautan yang disediakan untuk tempat-tempat yang berisi daftar dataset.
sumber
Set data dari buku mani
A handbook of small data sets
tersedia di sini .sumber
Mencari set data yang sesuai untuk kebutuhan saya, saya baru saja menemukan dua situs yang berkaitan dengan diskusi ini.
Datacite.org yang menggambarkan dirinya sebagai ...
DataBib.org yang menggambarkan dirinya sebagai ...
Kupikir akan layak menambahkannya ke daftar di sini untuk orang lain.
Sekarang untuk menemukan sesuatu dalam tautannya yang sesuai dengan kebutuhan saya!
sumber
Saya sangat merekomendasikan memeriksa quandl.com . Ini adalah impian para programmer data. Ini menyediakan satu API yang sangat mudah untuk mengakses salah satu dari lebih dari 10 juta data duduk. Anda mencari data bi-modial atau multi-variate, jadi saya akan menyarankan memeriksa berbagai set data populasi misalnya grafik populasi dunia ini berisi sub komponen negara dan wilayah yang masuk ke total.
sumber
sumber
Penggunaan Seiring Waktu
Lembar kerja Excel yang sangat besar tersedia untuk diunduh yang berisi titik data untuk semua aktivitas online, dengan demografi pengguna, seiring waktu. Silakan baca Lembar Tip (di bawah) sebelum mengunduh atau menggunakan spreadsheet ini.
http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx
sumber
http://www.ckan.net juga memiliki sejumlah dataset.
http://www.biotorrents.net/browse.php juga mulai memiliki cukup banyak dataset BIG.
sumber
SODA POP di Penn State;
http://sodapop.pop.psu.edu/
Arsip Data Online Sederhana untuk studi POPulasi.
sumber
Saya akan melanjutkan dan menabrak topik lama karena saya baru saja menemukan ibu ini lode:
http://vincentarelbundock.github.io/Rdatasets/
sumber
Singapura mengumumkan inisiatif Open Data . Lihat data.gov.sg mirip dengan data.gov di AS.
sumber