Menemukan sampel data yang tersedia secara bebas

98

Saya telah bekerja pada metode baru untuk menganalisis dan mengurai dataset untuk mengidentifikasi dan mengisolasi subkelompok populasi tanpa mengetahui karakteristik subkelompok mana pun. Sementara metode ini bekerja cukup baik dengan sampel data buatan (yaitu kumpulan data yang dibuat khusus untuk tujuan mengidentifikasi dan memisahkan subset populasi), saya ingin mencoba mengujinya dengan data langsung.

Apa yang saya cari adalah sumber data yang tersedia secara bebas (yaitu non-rahasia, non-eksklusif). Lebih disukai yang mengandung distribusi bimodal atau multimodal atau jelas terdiri dari beberapa himpunan bagian yang tidak dapat dengan mudah dipisahkan melalui cara tradisional. Ke mana saya akan pergi untuk mencari informasi seperti itu?

EAMann
sumber
4
Anda mungkin menyukai getthedata.org situs tanya jawab yang didedikasikan untuk menemukan kumpulan data
Jeromy Anglim

Jawaban:

46

Daftar berikut berisi banyak set data yang Anda mungkin tertarik:

Mehper C. Palavuzlar
sumber
17

Bank Dunia menawarkan cukup banyak data menarik dan baru-baru ini sangat aktif dalam mengembangkan API yang bagus untuk itu.

Juga, komugrat proyek memiliki daftar menarik yang tersedia.

Untuk kepala data terkait kesehatan AS untuk Gudang Indikator Kesehatan .

Blog Daniel Lemire menunjukkan beberapa contoh menarik (kebanyakan disesuaikan dengan penelitian DB) termasuk Canadian Sensus 1880 dan laporan cloud synoptic .

Dan untuk hari ini (03/04/2012) catatan sensus US 1940 juga tersedia untuk diunduh.

radek
sumber
2
Bank Dunia akan bekerja ekstra dengan data terbuka dan peta, untuk Stata dan R.
Fr.
13

Gapminder memiliki nomor (430 pada tampilan terakhir) dari kumpulan data, yang mungkin atau mungkin tidak berguna bagi Anda.

Amos
sumber
11

MLComp memiliki beberapa set data yang menarik, dan sebagai bonus, algoritma Anda akan mendapat peringkat jika Anda mengunggahnya.

jilles de wit
sumber
10

Tempat yang baik untuk melihat adalah Perpustakaan Data dan Cerita Universitas Carnegie Mellon atau DASL , yang berisi file data yang "menggambarkan penggunaan metode statistik dasar ... Contoh yang baik dapat membuat pelajaran tentang metode statistik tertentu yang jelas dan relevan. DASL adalah dirancang untuk membantu para guru menemukan dan mengidentifikasi datafile untuk pengajaran. Kami berharap bahwa DASL juga akan berfungsi sebagai arsip untuk kumpulan data dari literatur statistik. "

user211
sumber
9

Mulai R dan ketik data(). Ini akan menampilkan semua dataset di jalur pencarian. Banyak set data tambahan tersedia dalam paket tambahan. Sebagai contoh, ada beberapa dataset ilmu sosial dunia nyata yang menarik dalam AERpaket.

Jeromy Anglim
sumber
5

Jaringan Stack Exchange sekarang memiliki situs baru, Open Data (dalam versi beta per 5 Maret 2015), didedikasikan untuk data. Ini menggambarkan dirinya sebagai:

Open Data Stack Exchange adalah situs tanya jawab untuk pengembang dan peneliti yang tertarik pada data terbuka. Ini dibuat dan dijalankan oleh Anda sebagai bagian dari jaringan Stack Exchange situs Q&A. Dengan bantuan Anda, kami bekerja sama untuk membangun perpustakaan jawaban terperinci untuk setiap pertanyaan tentang data terbuka.

"Data terbuka" mengacu pada kumpulan data yang "tersedia secara bebas bagi semua orang untuk digunakan dan diterbitkan ulang sesuai keinginan, tanpa batasan dari hak cipta, paten, atau mekanisme kontrol lainnya" ( Wikipedia ). Namun, situs tersebut tampaknya menerima permintaan untuk dataset tertutup .

gung
sumber
3

Menambahkan pasangan ke daftar:

Keduanya tersedia melalui API REST dan memiliki rencana uji coba gratis.

Eugene Osovetsky
sumber
2

Set data dari buku mani A handbook of small data setstersedia di sini .

MYaseen208
sumber
2

Mencari set data yang sesuai untuk kebutuhan saya, saya baru saja menemukan dua situs yang berkaitan dengan diskusi ini.

Datacite.org yang menggambarkan dirinya sebagai ...

Kami adalah organisasi internasional yang bertujuan untuk:

  • membangun akses yang lebih mudah ke data penelitian
  • meningkatkan penerimaan data penelitian sebagai kontribusi yang sah dalam catatan ilmiah, dan untuk
  • mendukung pengarsipan data untuk memungkinkan hasil diverifikasi dan ditujukan kembali untuk studi di masa depan.

DataBib.org yang menggambarkan dirinya sebagai ...

Databib adalah alat untuk membantu orang mengidentifikasi dan menemukan repositori data penelitian online. Pengguna dan bibliografi membuat dan membuat catatan yang menjelaskan repositori data yang dapat dicari pengguna.

Kupikir akan layak menambahkannya ke daftar di sini untuk orang lain.

Sekarang untuk menemukan sesuatu dalam tautannya yang sesuai dengan kebutuhan saya!

slackline
sumber
2

Saya sangat merekomendasikan memeriksa quandl.com . Ini adalah impian para programmer data. Ini menyediakan satu API yang sangat mudah untuk mengakses salah satu dari lebih dari 10 juta data duduk. Anda mencari data bi-modial atau multi-variate, jadi saya akan menyarankan memeriksa berbagai set data populasi misalnya grafik populasi dunia ini berisi sub komponen negara dan wilayah yang masuk ke total.

Brian Risk
sumber
1
Beberapa data quandl gratis, beberapa "Premium" yaitu biaya $$. Juga mimpi API saya termasuk nrows seri waktu, ncols, dan plot online (saya ingin kuda poni).
denis
1

Penggunaan Seiring Waktu

Lembar kerja Excel yang sangat besar tersedia untuk diunduh yang berisi titik data untuk semua aktivitas online, dengan demografi pengguna, seiring waktu. Silakan baca Lembar Tip (di bawah) sebelum mengunduh atau menggunakan spreadsheet ini.

http://pewinternet.org/Trend-Data/Usage-Over-Time.aspx

Tal Galili
sumber