Saya mencari set data yang ada yang dapat kita gunakan untuk menguji beberapa teknik datavis yang sedang kita teliti.
Saya tahu beberapa sumber seperti yang termasuk dalam R (coba plot(Orange)
atau lihat di sini ).
Tapi saya ingin mengambil satu langkah ke depan:
- Apa dataset dunia nyata terbaik untuk menguji alat visualisasi?
- Kumpulan data apa yang telah Anda gunakan dalam makalah akademik atau slide pengajaran tentang datavis?
- Yang merupakan contoh terbaik dari dunia nyata untuk menunjukkan kelebihan grafik?
data-visualization
dataset
teaching
robermorales
sumber
sumber
Jawaban:
Ada sejumlah besar basis data yang tersedia di internet. Bergantung pada subjeknya, Anda bisa mendapatkan sumber yang berbeda.
Misalnya, dalam bidang subjek Pembangunan Manusia, Anda dapat memiliki sumber data di (http://hdrstats.undp.org/):
http://hdrstats.undp.org/en/tables/default.html
Untuk pengamatan perubahan Iklim, ada web dengan data iklim resolusi tinggi di (http://www.ipcc-data.org/), misalnya:
http://www.ipcc-data.org/obs/cru_ts2_1.html
Kedua contoh, berisi data nyata, yang digunakan dalam makalah ilmiah yang diterbitkan, dengan jumlah data yang besar. Data terkait waktu dan / atau ruang. Kemungkinan visualisasi dari data tersebut tidak terbatas.
sumber
Saya suka menggunakan set data Anscombe (juga tersedia di R) untuk menunjukkan pentingnya merencanakan ketika melakukan regresi. Jika Anda tidak terbiasa, Anda mendapatkan garis regresi dan diagnostik yang sama dari keempat set data, meskipun semua set itu sendiri terlihat sangat berbeda. Anda dapat mengambil plot di bawah ini dan mengubahnya menjadi plot residual untuk menggambarkan masalah yang mungkin Anda cari dalam residu setelah melakukan regresi.
sumber
Meja besar apa saja. Sebagai contoh, gambar google dari "tabel sensus resmi". Anda akan melihat hal-hal seperti di bawah ini .
Lihat juga Gelman et al. (2002) Ayo Praktekkan Apa yang Kami Khotbahkan: Mengubah Tabel menjadi Grafik. Statistik Amerika 56: 121-130
sumber
William S. Cleveland memiliki dua buku yang penuh dengan penggunaan grafik, dan data serta kode untuk membuat grafik dalam Visualisasi Data ada di situs webnya.
sumber
Mungkin Anda sudah tahu ini, tetapi di sini mereka tetap:
The UCI Machine Learning Repositor y memiliki banyak diakses publik, set data dunia nyata.
Pemerintah AS membuat banyak set datanya publik di data.gov .
Jika Anda ingin beberapa data visualisasi yang rumit, saya sarankan melihat tugas klasifikasi. Menurut saya Bag of Words yang diatur pada UCI MLR memiliki beberapa sifat yang bagus, tetapi saya bisa saja salah (sudah lama sejak saya menggunakannya).
sumber
Berikut ini beberapa.
Kumpulan Data Contoh Perangkat Sci2
http://wiki.cns.iu.edu/display/SCI2TUTORIAL/2.5+Sample+Data Kumpulan
sampel data yang disertakan bersama dengan Alat Sci2.
Set Sampel Data Tableau
https://public.tableau.com/s/resources?qt-overview_resources=1#qt-overview_resources
Sampel set data untuk memulai dengan Tableau.
Kumpulan Data Publik Luar Biasa
https://github.com/caesar0301/awesome-public-datasets/blob/master/README.rst
Daftar sumber data publik ini dikumpulkan dan dirapikan dari blog, jawaban, dan respons pengguna. Sebagian besar set data gratis, ada juga yang tidak.
Utas ini agak lama, berharap benjolan ini akan mendapatkan kontribusi baru!
sumber
Saya hanya memperhatikan banyak kumpulan data di sini:
http://www.inside-r.org/howto/finding-data-internet
Tidak tahu apakah itu ada gunanya?
Saya khawatir saya tidak mengajarkan visualisasi sehingga saya tidak bisa mengomentari pertanyaan spesifik Anda.
sumber