Kumpulan data untuk contoh visualisasi, pengajaran dan penelitian

9

Saya mencari set data yang ada yang dapat kita gunakan untuk menguji beberapa teknik datavis yang sedang kita teliti.

Saya tahu beberapa sumber seperti yang termasuk dalam R (coba plot(Orange)atau lihat di sini ).

Tapi saya ingin mengambil satu langkah ke depan:

  • Apa dataset dunia nyata terbaik untuk menguji alat visualisasi?
  • Kumpulan data apa yang telah Anda gunakan dalam makalah akademik atau slide pengajaran tentang datavis?
  • Yang merupakan contoh terbaik dari dunia nyata untuk menunjukkan kelebihan grafik?
robermorales
sumber
2
Banyak contoh dunia nyata yang bagus, dengan beberapa proyek terkait menyediakan set data (tetapi kebanyakan tidak, sayangnya): infosthetics.com
WSkid
1
Apakah Anda secara tegas mencari set data gratis ?
Fomite
3
Visualisasi tergantung pada konteks dan audiens (antara lain), menunjukkan bahwa "terbaik" ambigu dalam konteks ini. Anda mungkin mendapatkan jawaban yang lebih fokus dan relevan dengan menunjukkan "teknik" apa yang Anda teliti.
whuber
1
@whuber Techniques, tentang otomatisasi visualisasi. Terbaik, untuk menjelaskan. Terbaik untuk benchmark.
robermorales
@EpiGrad Ya, sebebas mungkin.
robermorales

Jawaban:

5

Ada sejumlah besar basis data yang tersedia di internet. Bergantung pada subjeknya, Anda bisa mendapatkan sumber yang berbeda.

Misalnya, dalam bidang subjek Pembangunan Manusia, Anda dapat memiliki sumber data di (http://hdrstats.undp.org/):

http://hdrstats.undp.org/en/tables/default.html

Untuk pengamatan perubahan Iklim, ada web dengan data iklim resolusi tinggi di (http://www.ipcc-data.org/), misalnya:

http://www.ipcc-data.org/obs/cru_ts2_1.html

Kedua contoh, berisi data nyata, yang digunakan dalam makalah ilmiah yang diterbitkan, dengan jumlah data yang besar. Data terkait waktu dan / atau ruang. Kemungkinan visualisasi dari data tersebut tidak terbatas.

Jose Zubcoff
sumber
set data manakah dari sumber-sumber magnific ini yang paling Anda sukai? terima kasih
robermorales
1
Itu tergantung pada kesesuaian untuk "rasa" visualisasi. Misalnya, untuk mengeksplorasi / menunjukkan rangkaian waktu, web IPCC memiliki cukup data dan digunakan secara luas (jelas untuk menganalisis perubahan iklim), untuk menampilkan data spasial, situs web Human Development berisi banyak data terkait ruang serta data terkait dengan waktu.
Jose Zubcoff
Tautan pertama Anda rusak (Galat DNS).
horaceT
Sayangnya tautan pertama rusak (5 tahun kemudian), tetapi ada banyak data terbuka di sana: kaggle.com/datasets data.okfn.org/data data.gov data.europa.eu/euodp/id/data
Jose Zubcoff
9

Saya suka menggunakan set data Anscombe (juga tersedia di R) untuk menunjukkan pentingnya merencanakan ketika melakukan regresi. Jika Anda tidak terbiasa, Anda mendapatkan garis regresi dan diagnostik yang sama dari keempat set data, meskipun semua set itu sendiri terlihat sangat berbeda. Anda dapat mengambil plot di bawah ini dan mengubahnya menjadi plot residual untuk menggambarkan masalah yang mungkin Anda cari dalam residu setelah melakukan regresi.

Kumpulan data Anscombe

Charlie
sumber
Ya, kami memang tahu dataset itu. Ini adalah titik awal yang baik.
robermorales
Masalah utama adalah bahwa itu bukan dataset dunia nyata.
robermorales
3
@robermorales, Cukup adil, tapi saya pikir bahwa melihat versi "murni" masalah membuatnya lebih mudah untuk memahami visualisasi / masalah dunia nyata yang berantakan.
Charlie
4

William S. Cleveland memiliki dua buku yang penuh dengan penggunaan grafik, dan data serta kode untuk membuat grafik dalam Visualisasi Data ada di situs webnya.

Peter Flom
sumber
set data manakah dari Cleveland yang lebih Anda sukai? terima kasih
robermorales
1
@robertomorales Saya pikir mereka semua dipilih dengan baik untuk tujuan mereka. Siapa pun yang tertarik pada grafik statistik harus mempelajari Cleveland dengan cermat.
Peter Flom
1
Data untuk Visualisasi Data dapat ditemukan di lib.stat.cmu.edu/datasets/visualizing.data.zip Saya tidak lagi dapat menemukannya di situs web Cleveland sendiri.
Nick Cox
4

Mungkin Anda sudah tahu ini, tetapi di sini mereka tetap:

The UCI Machine Learning Repositor y memiliki banyak diakses publik, set data dunia nyata.

Pemerintah AS membuat banyak set datanya publik di data.gov .

Jika Anda ingin beberapa data visualisasi yang rumit, saya sarankan melihat tugas klasifikasi. Menurut saya Bag of Words yang diatur pada UCI MLR memiliki beberapa sifat yang bagus, tetapi saya bisa saja salah (sudah lama sejak saya menggunakannya).

John Doucette
sumber
Terima kasih! Ada banyak sekali !
robermorales
3

Berikut ini beberapa.

Kumpulan Data Contoh Perangkat Sci2
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Data Kumpulan
sampel data yang disertakan bersama dengan Alat Sci2.

Set Sampel Data Tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Sampel set data untuk memulai dengan Tableau.

Kumpulan Data Publik Luar Biasa
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Daftar sumber data publik ini dikumpulkan dan dirapikan dari blog, jawaban, dan respons pengguna. Sebagian besar set data gratis, ada juga yang tidak.

Utas ini agak lama, berharap benjolan ini akan mendapatkan kontribusi baru!

Mike Nutt
sumber