Haruskah area atau panjang kotak sebanding dengan data yang sedang divisualisasikan?

16

Saya sedang membuat visualisasi data. Setiap datum diwakili oleh kuadrat. Untuk membuat data yang mendasarinya dapat dibaca secara intuitif, haruskah panjang sisi setiap kotak atau luas setiap kotak sebanding dengan datum yang diwakilinya?

dumbledad
sumber
1
Belum. Apakah ini luas? Saya berharap bahwa jawabannya pasti (saya berasumsi itu "daerah") tetapi orang-orang di sini akan memiliki lebih banyak desain grafis dan pengetahuan psikologi persepsi untuk mendukungnya.
dumbledad
1
IIRC ini tercakup dalam sebuah buku Jerman yang pernah saya baca, "So lügt man mit Statistik" oleh en.wikipedia.org/wiki/Walter_Krämer - tidak yakin apakah ada padanan bahasa Inggris. TL; DR - tergantung pada apa yang Anda ingin pembaca Anda baca dari visualisasi.
Michael Schumacher
Jawabannya tentu tidak pasti. Itu semua tergantung pada spesifik - yaitu apa data yang Anda sajikan, bagaimana Anda mempresentasikan, dan apa yang ingin Anda komunikasikan dengan data tersebut.
DA01
Bisakah Anda memberikan contoh di mana spesifik atau apa yang kita ingin pembaca baca dari visualisasi akan mengarahkan kita untuk memilih untuk membuat panjang sisi persegi yang proporsional dengan datum daripada luas persegi?
dumbledad
5
+1 Mengapa setiap pertanyaan menarik menarik setidaknya satu suara dekat?!? <grump>
user56reinstatemonica8

Jawaban:

10

Jika Anda, sang pencipta, tidak yakin, bagaimana pembaca akan tahu yang mana?

Jawaban singkat: nilainya harus dikaitkan 1: 1 dengan jumlah warna pada halaman . Jadi, dalam contoh Anda, itu harus area. Tetapi ada lebih dari itu: Anda juga perlu menghindari isyarat menyesatkan yang mungkin membuat pembaca salah membaca, dan Anda perlu tahu mengapa Anda menggunakan area alih-alih panjang (misalnya grafik batang), karena memiliki pro dan kontra yang nyata.


Pertama, tidak pernah memiliki panjang dan lebar (yaitu area) dari perubahan bentuk ketika sebenarnya variabel hanya terkait dengan panjang satu sisi. Jika X ganda Y tetapi Y memiliki empat kali lebih banyak warna pada halaman, Anda menyesatkan pembaca Anda. Distorsi semacam ini kadang-kadang disebut sebagai " faktor kebohongan ", dan sering dianggap sebagai upaya yang disengaja untuk menyesatkan dan melebih-lebihkan perbedaan.

masukkan deskripsi gambar di sini


Jika Anda menggunakan area sebagai ukuran saya sangat merekomendasikan:

  • Mengetahui alasan Anda menggunakan area . Dengan menggunakan area alih-alih dimensi linear seperti panjang, Anda:

    • Mengorbankan kemampuan untuk secara jelas melihat perbedaan secara matematis (Anda tidak dapat dengan mudah mengatakan "lihat, itu gandakan yang lain")
    • Undang pembaca Anda untuk melihatnya dengan cara non-numerik sehari-hari yang intuitif seperti cara orang, misalnya, membandingkan ukuran pai di toko. Kurang canggih, tetapi lebih langsung. Lebih banyak usus, lebih sedikit kepala.
    • Perbedaan kecil antara angka yang sangat mirip menjadi hampir tidak terlihat.
    • Ketika satu variabel berkali-kali lebih kecil dari yang lain, variabel yang sangat kecil tidak menghilang sama buruknya dengan di grafik batang, yang dapat memungkinkan lebih banyak fleksibilitas dalam tata letak.

masukkan deskripsi gambar di sini

  • Pertimbangkan menggunakan lingkaran untuk area, bukan bujur sangkar, sejajar tengah :

    • Lingkaran karena tidak mengundang kebingungan dengan diagram batang dan yang serupa. Tinggi dan lebar kurang kedepan: sepertinya Anda tidak mengundang perbandingan berdasarkan tinggi atau lebar.
    • Center-aligned karena tidak mengundang orang untuk membandingkan ketinggian

masukkan deskripsi gambar di sini

Misalnya, di atas, sulit untuk tidak melihat kuadrat berlabel "5" sebagai tiga perempat tingginya kuadrat berlabel "10", sehingga berpotensi menyesatkan.

Lingkaran tidak mengundang perbandingan semacam ini: ini lebih merupakan level intuisi, instan "Gumpalan itu jauh lebih besar daripada gumpalan berikutnya".


Ada berbagai bukti dari pengujian pengguna hingga studi skala kecil (akan mencoba memburu beberapa contoh nanti) bahwa perbandingan berbasis area intuitif ini bisa lebih menarik, dapat menurunkan penghalang untuk masuk ke audiens yang kurang terlibat, dan dapat membantu menjaga fokus pembaca pada pokok bahasan daripada hal-hal kecil yang dingin dari angka-angka. Tetapi ini datang dengan biaya menghalangi analisis yang lebih numerik.

Jangan memilih antara satu dimensi (panjang atau jarak) dan dua dimensi (area) karena alasan estetika: pilih di antara mereka berdasarkan audiens dan pesan Anda.

Mana yang lebih tepat untuk komunikasi: perbandingan tingkat usus instan pada tingkat "itu jauh lebih besar", atau lebih perbandingan numerik dianggap pada tingkat "itu sekitar 80% dari yang lain"?

Atau adakah alasan praktis mengapa Anda perlu menggunakan area?

Kemudian, ketika Anda memilih untuk alasan praktis , terapkan estetika.

user56reinstatemonica8
sumber
'Sebanding dengan jumlah warna pada halaman' adalah aturan praktis yang sangat berguna (setidaknya dalam 2D); terima kasih untuk itu saya akan menggunakannya. Desain yang saya pindahkan didasarkan pada lingkaran, saya pikir Anda ada di sana
dumbledad
5

Saya akan mengatakan daerah. Secara optis, sebuah bujur sangkar dengan sisi dua kali lebih panjang menunjukkan luas 4 kali lebih besar. Pengamat kasual akan berhubungan dengan daerah tersebut, bahkan tanpa membaca legenda Anda.

Contoh yang bagus adalah grafik legendaris ini dari xkcd 's Randall Munroe:

masukkan deskripsi gambar di sini ( besar, versi terbaca )

Vincent
sumber
4

Kami tidak pandai menilai perbedaan dalam bidang seperti panjangnya kami. Kami menggunakan panjang sebagai proksi dan karenanya cenderung meremehkan perbedaan dalam area.

Karena alasan ini, sebuah lingkaran yang sebenarnya memiliki 2x luas bidang lain tampak terlalu kecil karena otak kita menghubungkan jari-jarinya, yang berbeda dengan faktor 1,4x.

Ada upaya menarik untuk merekonsiliasi fenomena ini, seperti Pemetaan Simbol Proportional dalam R , yang mengusulkan penskalaan simbol perseptual agar lebih selaras dengan bagaimana kita menilai panjang dan area.

Berikut adalah Gambar. 2 dari makalah ini

masukkan deskripsi gambar di sini

Secara pribadi saya tidak punya pengalaman dengan ini dan menghindari menggunakan area jika penilaian kuantitatif diperlukan.

Garis singgung yang menarik adalah hubungan antara persepsi volume dan panjang. Perbedaan dalam cara kita memandang ini bahkan lebih mencolok. Ini dapat diilustrasikan dalam video perbandingan ukuran bintang ini .

Pada saat Anda mencapai bintang terbesar, yaitu sekitar 1.700x diameter matahari, Anda memiliki kesan bahwa ukurannya jauh lebih besar dari 1.700x.

Untuk melihat lebih sistematis tentang kesalahan kami dalam memahami perbedaan dalam area dan panjang, lihat Crowdsourcing Graphical Perception: Menggunakan Mechanical Turk untuk Menilai Desain Visualisasi oleh Jeffrey Heer dan Michael Bostock.

Martin Krzywinski
sumber
4

Menurut saya area (D), tidak setiap sisi (E).

Jika Anda menggunakan sisi panjang 2, maka area akan menjadi 4 kali nilainya dan Anda akan memiliki grafik yang sangat tumpang tindih. (E)

Ketika Anda memiliki grafik batang normal (A), datanya linear, dan dengan bilah hanya untuk estetika. (B)

Dalam kasus tersebut, area tersebut kembali mewakili data karena dengan bilah sama. Anda dapat memiliki bilah 3D dan volume bilah tetap mewakili data (C)

Grafik menggambarkan perbedaan ukuran persepsi dan tumpang tindih

Rafael
sumber
4 kali? Bukankah perbedaan antara linier dan kuadrat?
dumbledad
Izinkan saya menggambarkan dan mengedit posting.
Rafael
Misalkan datum adalah 81. Jika kita menggunakan area sisi memiliki panjang 9 memberikan luas 81. Jika kita melakukan sisi maka mereka memiliki panjang 81 dan area adalah 6.561. 81 bukan 4 kali 9 dan 6.561 bukan 4 kali 81. Dari mana Anda dapatkan 4?
dumbledad
"Jika kamu menggunakan sisi panjang 2, maka luasnya akan menjadi 4 kali nilainya" Aku tidak tahu apa yang ingin kamu katakan di sana. Saya pikir maksud Anda, jika Anda menggunakan panjang sisi untuk mewakili besarnya data, menggandakan nilai data akan mengalikan area dengan empat.
David Richerby
David - itu hasil edit saya! Posting asli Rafael mengatakan "jika Anda menggunakan sisi, luasnya akan menjadi 4 kali lipat dari nilai". Jika Anda tahu cara yang lebih baik untuk klarifikasi, silakan lakukan.
dumbledad
1

Tufte berurusan dengan ini secara ekstensif. Lihat:

  • Tampilan Visual Informasi Kuantitatif,
  • Membayangkan Informasi dan lainnya.

Beberapa prinsip integritas grafis:

  1. Representasi angka, seperti yang diukur secara fisik pada permukaan grafik itu sendiri, harus berbanding lurus dengan jumlah numerik yang diwakili
  2. Pelabelan yang jelas, terperinci dan menyeluruh harus digunakan untuk mengalahkan distorsi grafis dan ambiguitas. Tuliskan penjelasan data pada grafik itu sendiri. Beri label peristiwa penting dalam data.
  3. Tampilkan variasi data, bukan variasi desain.
  4. Dalam tampilan time-series of money, unit pengukuran moneter yang deflated dan terstandarisasi hampir selalu lebih baik daripada unit nominal.
  5. Jumlah dimensi pembawa informasi (variabel) yang digambarkan tidak boleh melebihi jumlah dimensi dalam data. Grafik tidak boleh mengutip data di luar konteks.

Dalam kasus Anda, Anda harus bertanya pada diri sendiri apakah data lebih baik diwakili oleh gambar 2D atau 3D atau garis. Sebuah kubus, kotak, dan garis tidak sama. Itulah salah satu alasan mengapa grafik batang 3D begitu sering menyesatkan.

Mayo
sumber