Berapa banyak variabel yang dapat saya wakili secara grafis sebelum kehilangan kejelasan?

14

Mari kita lihat apakah saya bisa menjelaskan pertanyaan ekonomi grafis yang saya miliki dengan benar. Saya baru di bidang ini dan perlu disebutkan bahwa ini adalah keingintahuan murni, dan contoh-contoh saya adalah - karena Anda akan dapat segera tahu - benar-benar dibuat-buat.

Berapa banyak variabel yang dapat saya wakili secara grafis sebelum grafik saya kehilangan kualitas komunikasi? Misalkan audiens saya, misalnya, pembaca koran Minggu.

Misalkan saya memiliki set ini: Berat (x) / Usia (y), dan dua individu: Jane, 10yo, 30kg; dan Joe, 20yo, 60kg. Representasi grafis bisa seperti ini:

masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini

Sekarang, saya tahu saya dapat menambahkan variabel lain menggunakan ukuran lingkaran, jadi jika saya ingin menambahkan representasi untuk berapa banyak burger yang dimakan Jane dan Joe dalam seminggu (masing-masing 10 dan 20), saya dapat memiliki sesuatu seperti:

masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini

Dan saya bahkan dapat menggunakan bentuk atau warna + ukuran untuk menambahkan variabel keempat, misalnya jika mereka makan burger keju lebih banyak daripada burger daging sapi (batasannya di sini adalah jenis burger adalah boolean, dengan hanya dua nilai yang mungkin), tetapi tetap:

masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini

Dan di sinilah aku mulai berantakan. Menambahkan bentuk ke kombo untuk mewakili variabel kelima akan berisiko 'kemudahan memahami' grafik. Ketika saya melihat grafik, otak saya (khususnya) hanya memproses 2 atau 3 variabel, tidak lebih. Apakah mereka makan kombo atau hanya burger, misalnya ?:

masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini

Saya berpikir mungkin dimensi ke-3, tapi itu akan terlihat mengerikan. Saya mungkin berpikir tentang hal ini dengan cara yang sepenuhnya salah, dan kemungkinan saya kehilangan sesuatu yang sangat jelas di sini yang tidak dapat saya pahami (misalnya, jika mencoba mewakili lebih dari 3 atau 4 variabel hanya salah sebagai praktik), tetapi kembali untuk pertanyaan saya:

  • Apakah 4 (mungkin 5 jika grafiknya sangat sederhana seperti milik saya) angka yang masuk akal untuk variabel maksimum yang diwakili pada saat yang sama dalam grafik dua sumbu?

  • Apakah ada tipe grafik lain yang memungkinkan lebih banyak variabel tanpa kehilangan kejelasan?

  • Apakah ada contoh grafik yang baik yang berhasil mewakili sejumlah besar variabel?

Yisela
sumber

Jawaban:

14

Sunting III: Saya menemukan contoh cantik dari visualisasi data kuantitatif multivariabel, dan harus menambahkannya. Anda akan menemukannya di bawah judul "Sunting III (pemenang Hadiah Nobel)".

Edit II: ada sedikit kesalahpahaman, dan saya telah mengedit untuk mencoba menjelaskan bagaimana saya mengartikan penggunaan data yang dimaksudkan. Saya telah mengganti dua gambar dan menambahkan bagian "Apakah Anda ingin kentang goreng dengan itu?"


Grafik mengungkapkan data.

Edward Tufte:

Kekacauan dan kebingungan adalah kegagalan desain bukan atribut informasi. Clutter membutuhkan solusi desain, bukan pengurangan konten. Cukup sering, semakin detail, kejelasan dan pemahaman yang lebih besar, karena makna dan penalaran tanpa henti KONTEKSTUAL. Kurang membosankan.

Mengapa kita memvisualisasikan data?

  • Alat untuk berpikir
  • Untuk menunjukkan hasil penglihatan yang intens
  • Untuk memahami masalah, membuat keputusan
  • Tunjukkan perbandingan, tunjukkan kausalitas
  • Berikan alasan untuk percaya

Bagaimana?

  • perlihatkan data
  • mendorong penonton untuk berpikir tentang substansi daripada tentang metodologi, desain grafis, teknologi produksi grafis atau sesuatu yang lain
  • hindari mendistorsi apa yang dikatakan data
  • menyajikan banyak angka dalam ruang kecil
  • membuat set data yang besar koheren
  • dorong mata untuk membandingkan bagian data yang berbeda
  • mengungkapkan data pada beberapa tingkat detail, dari tinjauan luas hingga struktur halus.
  • melayani tujuan yang cukup jelas: deskripsi, eksplorasi, tabulasi, atau dekorasi.
  • diintegrasikan dengan deskripsi statistik dan verbal dari suatu set data.

Beberapa definisi:

Data:

secara umum dianggap sebagai "barang yang disortir dalam database". Ini tentu saja dapat berupa angka, gambar, suara, video dll. Data adalah apa yang dapat dikumpulkan, seringkali kuantitatif. Dalam bentuk mentahnya sulit dicerna; hanya dinding digit. Kamu tahu; Matriks . Secara umum, kita tidak memiliki database besar yang terdiri dari nol, untuk semua hal-hal yang kita tidak punya, bahkan jika kadang-kadang hal-hal yang kita tidak memiliki adalah hal yang paling informatif . Jadi untuk melihat apa yang tidak kita miliki, kita perlu untuk memvisualisasikan apa yang kita lakukan memiliki.

Informasi:

adalah apa yang dapat Anda ekstrak dari data . Dengan menampilkan data entah bagaimana, kita dapat memperoleh informasi . Salah satu contoh yang sering saya gunakan, adalah bahwa jika saya memberi Anda daftar negara-negara di dunia dan memberi tahu Anda bahwa ada dua yang hilang, kemungkinan besar Anda tidak akan menemukannya berdasarkan daftar itu. Namun, jika saya menampilkan ini dengan mewarnai semua negara yang saya miliki di peta, Anda akan langsung melihat saya telah menghilangkan Republik Afrika Tengah dan Kaledonia Baru. Ini adalah "mengurangi kebisingan" dan menceritakan kisah dengan cara seefektif mungkin.

Visualisasi data dan infografis:

Saya ragu untuk menyebut contoh infografis Anda. Saya tahu ini sering dilihat sebagai sinonim dengan visualisasi data, desain informasi, atau arsitektur informasi, tetapi saya tidak setuju. Infografis - bagi saya - adalah serangkaian grafik, diagram, dan ilustrasi yang mungkin berisi banyak pernyataan bias tentang cara membaca data. Itu kurang objektif, lebih rentan untuk melewatkan data yang tidak dalam "kepentingan" pencipta: Anda dibimbing ke arah kesimpulan bahwa seseorang telah ditentukan sebelumnya. Mereka memiliki nilai hiburan, dan mereka sering menggunakan ilustrasi yang berlebihan yang menghilangkan fokus dari data. Ini baik-baik saja tetapi saya pikir kita harus membedakan sedikit.

Contohnya

Data besar:

Ingatlah bahwa big data tidak sama dengan data kompleks. Banyak data bisa sama, seperti peta LinkedIn ini: data intinya sama, tetapi ada filter (dengan memberi tag). Ada dua variabel: geografi dan semacam tag yang mendefinisikan orang menjadi profesi / minat / hubungan. Jumlah data yang gila; tetapi hanya dua variabel.

masukkan deskripsi gambar di sini

Multivariabel:

Berikut adalah contoh visualisasi data multivariabel. Ini adalah bagan 1869 milik Charles Minard yang menunjukkan jumlah orang dalam pasukan kampanye Rusia Napoleon tahun 1812, gerakan mereka, serta suhu yang mereka temui di jalur pulang. Versi besar di sini. masukkan deskripsi gambar di sini

Butuh sedikit waktu untuk memecahkan kode, tetapi ketika Anda melakukannya sangat bagus. Variabel yang dibahas adalah:

  • ukuran tentara (jumlah yang hidup / mati)
  • lokasi geografis
  • arah (timur - barat)
  • suhu
  • waktu (tanggal)
  • sebab akibat (meninggal dalam pertempuran dan kedinginan)

Itu adalah jumlah informasi yang luar biasa dalam peta sederhana berwarna dua. Bagian geografis bergaya untuk memberikan ruang kepada variabel lain, tapi kami tidak punya masalah mendapatkannya.

Ini yang lebih rumit. Ini akan jauh lebih mudah dibaca jika Anda terbiasa dengan visualisasi evolusi dasar, cladograms, filogenik dan prinsip-prinsip biogeografi. Ingatlah ini dibuat untuk orang-orang yang akrab dengan ini, jadi ini adalah grafik khusus dan ilmiah. Inilah yang ditunjukkannya: Gambar filogeografis garis keturunan katak racun dari Amerika Selatan. Peta di sebelah kiri menunjukkan wilayah biogeografi utama saat mereka berubah melalui waktu dan gambar di sebelah kanan menunjukkan garis keturunan katak dalam konteks asal biogeografis mereka. (Oleh Santos JC, Coloma LA, Summers K, Caldwell JP, Ree R, dkk. [CC-BY-SA-2.5 (www.creativecommons.org/licenses/by-sa/2.5)], melalui Wikimedia Commons). Ketika Anda "memecahkan kode" itu liar, sangat informatif.

masukkan deskripsi gambar di sini

Kelipatan kecil, grafik mini:

Saya tidak bisa cukup menekankan hal ini: tidak pernah meremehkan nilai pengulangan informasi, atau membaginya menjadi visualisasi identik yang terpisah. Selama cukup mudah untuk membandingkan satu grafik dengan yang lain, ini tidak masalah. Kami adalah mesin pencari pola. Ini sering disebut sebagai kelipatan kecil. Kami memiliki beberapa masalah dalam menganalisis gambar-gambar ini dengan cukup cepat, dan menjejalkan semuanya ke dalam satu grafik besar seringkali tidak ada gunanya ketika sepuluh yang kecil akan bekerja lebih baik:

masukkan deskripsi gambar di sini

Yang lainnya:

masukkan deskripsi gambar di sini

Dan yang menggunakan grafik yang berbeda tetapi berulang:

masukkan deskripsi gambar di sini

Sparklines adalah istilah yang diciptakan oleh Edward Tufte, dan juga dikembangkan menjadi perpustakaan javascript yang berfungsi penuh dan dapat disesuaikan sepenuhnya. Mereka pada dasarnya bagan kecil yang dapat disisipkan dalam teks, sebagai bagian dari teks dan bukan sebagai objek "eksternal". Seperti apa bentuk defaultnya: masukkan deskripsi gambar di sini

Sunting III (pemenang Hadiah Nobel)

Saya hanya perlu menambahkan visualisasi data yang saya temukan, ini terlalu bagus: ini menunjukkan pemenang Hadiah Nobel. Apa universitas, apa fakultas, subjek, tahun, usia, kota asal, apakah itu dibagikan, tingkat gelar. Bukti yang indah memang. Ini semua adalah data yang dapat diukur. Lebih lanjut di sini.

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

Data Anda

Semua pertanyaan yang diajukan @Javi sangat penting.

Apa yang Anda coba lakukan adalah menciptakan alat visual untuk berpikir. Untuk melakukannya, Anda harus mengekstraksi rasio signal to noise kualitas terbaik. Apa yang Anda perjuangkan adalah bagaimana menghubungkan data yang memiliki variabel yang berbeda, menjadi informasi . Berikut adalah pertanyaan: apa yang perlu kira-kira benar dan apa yang harus tepat benar? Apa tujuannya?

Saya akan berasumsi bahwa Anda ingin menampilkan data tanpa terlalu banyak bias: Anda ingin pembaca untuk menemukan korelasi sendiri, jika ada korelasi yang bisa didapat. Tujuan Anda bukan untuk memberi tahu orang-orang bahwa burger itu buruk bagi mereka atau bahwa wanita makan burger lebih sedikit daripada pria, tetapi untuk membiarkan mereka "melihatnya", jika itu yang ada dalam data (bayangkan jika ketiga orang itu adalah keluarga. ayunkan pandangan kita pada grafik makan burger secara keseluruhan).

Dataset Anda sangat kecil, Anda cukup meletakkan semuanya di dalam tabel dan akan baik-baik saja. Tapi tentu saja ini tentang ide umum:

Sedikit detail: waktu (umur) cenderung menjadi sesuatu yang kita lihat horizontal dari kiri ke kanan (garis waktu). Bobot sesuatu yang naik-turun, jadi mengganti x - y adalah ide yang bagus.

1. Apa yang unik, entitas tetap?

  • Nama

2. apa variabel variabel (eh ..)?

  • Berat (kg)
  • Usia (tahun)
  • Jumlah burger (bilangan bulat)
  • Jenis burger (bilangan bulat)

Catatan: data Anda seluruhnya terdiri dari unit. Dihitung, dapat dihitung masing-masing pada skala mental yang terpisah. Kilo, usia, berat, dan angka. Dan dalam berbicara di database, nama mereka adalah kuncinya. Ketika Anda mulai membuat visualisasi ruang-waktu, itu menjadi sakit kepala nyata. Bayangkan Anda harus menambahkan tempat lahir, rumah saat ini, dll.

Satu-satunya dua di sini yang memiliki korelasi adalah jumlah burger dan apakah itu combo. Semua variabel lainnya independen, dan hanya satu yang diperbaiki (nama). Pada titik tertentu, dengan kumpulan data besar, bahkan nama menjadi tidak menarik, dan akan digantikan oleh demografi, usia, jenis kelamin, atau sejenisnya.

Dengan dataset kecil itu, Anda bisa mendapatkan semuanya dalam satu grafik, misalnya seperti ini: masukkan deskripsi gambar di sini

Atau Anda dapat mengubah mengubah konten sumbu dan gelembung nama:

Catatan pribadi: Saya pikir ini adalah yang terbaik dari keduanya, karena x dan y mengandung sifat "fisik" manusia. Variabel dalam gelembung di sini adalah jumlah burger.

masukkan deskripsi gambar di sini

Anda juga bisa menambahkan diagram lingkaran sebagai tambahan pada grafik, atau bahkan hanya memiliki diagram lingkaran. Secara pribadi saya akan memiliki keduanya, seperti yang disebutkan tentang kelipatan kecil: masukkan deskripsi gambar di sini

Apakah Anda ingin kentang goreng dengan itu?

Asumsi saya adalah bahwa kami juga ingin tahu perbandingan burger dengan makanan. Setiap makanan mengandung burger. Tidak semua makanan adalah kombinasi.

  1. apakah kita hanya ingin tahu apakah seseorang kadang makan combomeals?
  2. atau apakah kita ingin tahu berapa banyak makanan burger juga combomeals?

Jika 1., boolean yang diterapkan pada nama / kunci / id akan dilakukan.

Jane terkadang makan combomeals? Benar salah.

Jika 2., kita bisa menerapkan boolean untuk setiap makanan:

1 burger keju, kombinasi = benar

1 burger keju, kombinasi = benar

1 burger keju, kombinasi = salah

1 burger keju, kombinasi = salah

1 burger keju, kombinasi = salah

1 burger keju, kombinasi = salah

1 burger keju, kombinasi = salah

1 beefburger, combomeal = true

1 beefburger, combomeal = true

1 beefburger, combomeal = false

Itu sangat membosankan, sehingga kami bisa memecahnya menjadi:

Jane makan 10 burger. Dari jumlah tersebut, tiga adalah kombo ("Anda mau kentang goreng dengan itu?").

Salah satu combomeals adalah menu beefburger.

Dua combomeals adalah menu cheeseburger.

Sisanya adalah burger tunggal. 5 keju, dua daging sapi.

Piechart ini adalah upaya untuk memvisualisasikan itu. Saya miliki dalam versi ini menyimpan irisan pai untuk membuatnya lebih jelas. Masalahnya adalah tidak ada lompatan untuk mulai menerapkan kumpulan data besar dan%: masukkan deskripsi gambar di sini

Tapi saya pikir cara terbaik adalah memikirkan kembali.

Cara lain untuk melihatnya, adalah melakukannya dengan sangat sederhana. Di sini lebih mudah untuk melihat kelompok umur apa, kelompok berat apa dan semua data yang Anda tidak "miliki" dapat memberi tahu kami. Data yang Anda miliki tidak terkait ruang, ini hanya satuan (kg, tahun, angka + kunci / id / nama):

(Sunting: Telur di wajah saya: Saya telah mengganti gambar-gambar ini dengan yang lebih benar, seperti "semua makanan adalah burger, tidak semua makanan adalah kombo")

masukkan deskripsi gambar di sini Ini akan cukup mudah untuk diperluas dengan lebih banyak orang:

masukkan deskripsi gambar di sini Atau, bahkan lebih baik, jika Anda membandingkan kelompok usia 10, 20 dan 30 tahun, Anda dapat membuat visualisasi statistik yang cukup sederhana untuk dibaca:

masukkan deskripsi gambar di sini

..Dan hanya untuk menjadi sejelas mungkin; berikut adalah contoh cara berpikir ini. Bagan ini menunjukkan para penyintas Titanic, rasio kru, kelas, pria, wanita. masukkan deskripsi gambar di sini

Akan ada banyak solusi lain, ini hanya beberapa pemikiran.

Saya bisa terus dan terus, tetapi sekarang saya sudah kelelahan dan mungkin orang lain.

Alat untuk bermain:

ya Tuhan

Gapminder Lihat presentasi TED yang fenomenal dari Hans Rosling ini - cintai pria itu

Grafik Google

somvis

Raphaël

Pameran MIT (sebelumnya bernama Similie)

d3

Highchart

Bacaan lebih lanjut:

PJ Onori; Bertahan keras

Edward Tufte: Bukti indah

Edward Tufte: Membayangkan informasi

Edward Tufte: Tampilan visual informasi kuantitatif

Penjelasan Visual: Gambar dan Kuantitas, Bukti dan Narasi

Laki-laki, Alan., 2007 Ilustrasi perspektif teoretis dan kontekstual Lausanne, Swiss; New York, NY: AVA Academia

Isles, C. & Roberts, R., 1997. Dalam cahaya tampak, fotografi dan klasifikasi dalam seni, sains dan sehari-hari, Museum seni modern Oxford.

Card, SK, Mackinlay, J. & Shneiderman, B. eds., 1999. Bacaan dalam Visualisasi Informasi: Menggunakan Vision to Think 1st ed., Morgan Kaufmann.

Grafton, A. & Rosenberg, D., 2010. Kartografi Waktu: A History of the Timeline, Princeton Architectural Press.

Lima, M., 2011. Kompleksitas Visual: Pemetaan Pola Informasi, Princeton Architectural Press.

Bounford, T., 2000. Diagram Digital: Cara Mendesain dan Menyajikan Informasi Statistik Secara Efektif 0 ed., Watson-Guptill.

Steele, J. & Iliinsky, N. eds., 2010. Visualisasi Cantik: Melihat Data melalui Mata Pakar edisi pertama, O'Reilly Media.

Gleick, J., 2011. Informasi: A History, a Theory, a Flood, Pantheon

benteh
sumber
Saya memang membaca semuanya, tetapi akan membutuhkan waktu berminggu-minggu untuk menyerap. Anda harus menulis buku!
Joshua Frank
Untuk gambar hadiah Nobel, apakah Anda tahu bagaimana mereka membuatnya? Pita yang mengalir itu sangat indah.
Joshua Frank
Tidak, saya tidak tahu bagaimana tepatnya dia membuatnya, tetapi Giorgia Lupi sangat cepat menjawab beberapa pertanyaan lain, jadi Anda bisa mencoba bertanya padanya giorgialupi.net
benteh
Hei, ide bagus. Saya baru saja mengiriminya email.
Joshua Frank
2
Anda berhak mendapatkan hadiah novel untuk jawaban ini n_n
Rafael
5

Saya pikir ada beberapa pertanyaan tambahan yang dapat mempersempit pencarian Anda untuk kunci untuk merepresentasikan data kepada audiens Anda. Saya menganggap mereka seperti membatasi resume Anda ke pekerjaan tertentu yang Anda inginkan.

  1. Mengapa Anda membuat infografis.
  2. Apa tujuan atau hasil bersih yang ingin diketahui audiens tentang data Anda.
  3. Apa yang Anda ketahui tentang audiens Anda dan bagaimana mereka berhubungan dengan data. (Usia demografis, jenis kelamin, geolokasi, berat, dll.)
  4. Apa data yang paling penting dan paling tidak penting yang akan Anda tunjukkan dan perbedaan di antara mereka.
  5. Media / konteks apa yang akan Anda tampilkan data Anda untuk mendapatkan tujuan "bersih" terbaik untuk membuatnya di tempat pertama? Misalnya, apakah itu representasi digital dari data atau fisik (pikirkan jelly beans dalam toples jika audiens target Anda adalah anak-anak). Apakah itu untuk rapat kantor atau usaha komersial?
  6. Dapatkah data dipecah menjadi beberapa infograf yang berbeda sekaligus menjaga integritas tujuan Anda untuk membuatnya.

Data dan tujuan Anda harus menentukan ketentuan apa yang harus Anda perlihatkan dan tidak ditampilkan. Misalnya, seberapa pentingkah menunjukkan grafik dari apa yang dipesan orang di McDonald's pada hari Selasa antara jam 1 siang dan jam 3 sore, ketika seluruh tujuan Anda hanya untuk menunjukkan perbandingan dari apa yang dipesan orang pada umumnya. Variabel waktu tidak diperlukan meskipun kami memiliki data mentah untuk itu. Itu bukan tujuan kami.

Untuk secara khusus menjawab pertanyaan Anda. Saya pribadi (subjektif) pikir ketika Anda melewati menggunakan three'ish / 4 variabel (ukuran, bentuk, warna, posisi) dalam grafik dasar seperti ini, pembaca (saya) bosan / hilang dan bosan / hilang kemungkinan tidak yang alasan grafik dibuat. Namun, mereka dapat benar-benar menyenangkan dan benar-benar menarik perhatian penonton. Misalnya, sesuatu seperti ini berlawanan dengan ini . Saya juga tidak mengabaikan pentingnya contoh kedua karena ini akan menjadi infografik yang sangat efektif jika saya sedang rapat di kantor yang memperlihatkan data umum. Ini kembali ke pertanyaan tentang media dan konteks menunjukkan data.

Jika Anda mencari cara untuk menunjukkan variabel dalam data, saya akan menyarankan meneliti infografis. Inilah awal yang bagus dari Smashing Magazine untuk menciptakan infografis yang efektif. Ingatlah bahwa sebagian dari ini dapat dan bersifat subjektif.

Javi
sumber
2

Ini adalah pertanyaan yang sangat bagus. Sungguh.

Garis pemikiran yang brilian ada di.

Harus ada diskusi tentang ini. Tapi saya akan mengucapkannya sedikit berbeda:

**

Berapa banyak properti yang bisa kita lintas referensi dengan teknologi dan desain ilustrasi modern?

**

Jawabannya terletak pada tiga aspek produksi: tampilan, desain dan mode presentasi ... semua dicampur dan diperhitungkan oleh percikan pertimbangan audiens.

Tampilan adalah hal yang fisik. Dengan ukuran, resolusi, dan batasan ruang warna.

Desain tidak terbatas, tetapi aspek menarik yang sebenarnya dari pertanyaan ini. Bagaimana kita dapat memanfaatkan teknologi ilustratif modern dan pemahaman kita tentang desain dan kreativitas untuk menunjukkan sebanyak mungkin.

Mode presentasi bersifat statis, dinamis, atau interaktif. Masing-masing dengan kekuatan dan kelemahan mereka sendiri, dan diperparah oleh medium, jenis dan ukuran layar.

Dan seperti yang Javi tunjukkan dengan tepat, tetapi mungkin tidak cukup dekat dengan ... INI SEMUA SUBYEKTIF! - Itulah percikan pertimbangan audiens yang memperhitungkan persamaan. Atau tidak.

Bingung
sumber