BBC telah menganalisis lebih banyak data referendum Brexit; bagan pertama di artikel mereka menarik perhatian saya:
Tampaknya aneh untuk membagi sumbu x pada 50%. Tentunya ini seharusnya dipecah pada median data? (Atau maksudnya jika data terdistribusi secara normal; tetapi menyipitkan mata, sepertinya tidak demikian di sini.)
(Mereka belum merilis data mereka, tetapi google cepat menunjukkan lulusan kira-kira 25% dari populasi orang dewasa, dan itu cocok dengan eye-balling the chart, jadi saya akan pergi dengan itu.)
Tapi itu membuat saya berpikir bagaimana cara menggambar bagan ini seobjektif mungkin. Akankah lebih baik untuk menjaga sumbu x linier, dan memiliki dua kotak di sebelah kanan menjadi tiga kali lebih lebar? Atau simpan semua kotak dengan ukuran yang sama, dan remas dan rentangkan sumbu x, sehingga setiap rentang N piksel mencakup jumlah titik data yang sama? Atau sesuatu yang lain?
sumber
Jawaban:
Saya pikir versi FT data serupa ini berfungsi sebagai jawaban yang layak tentang bagaimana menyajikan data secara adil.
Alih-alih absolut pada skala 0 - 100, itu memperbesar untuk fokus pada perubahan. Garis-garis membantu memverifikasi pola yang sulit untuk dinilai pada poin saja karena semua overstriking. (Berapa banyak dari 1070 bangsal yang dapat Anda temukan di aslinya?)
sumber
Saya setuju bahwa mewarnai kuadran merah muda sebagian besar kosmetik, tetapi secara keseluruhan saya melihat ini sebagai plot informatif yang jelas. Pesannya langsung terlihat dan tidak menyesatkan. BBC telah merencanakan titik data aktual. Mereka belum memanipulasi sumbu x atau y. Anotasi pada plot benar dan tidak dinyatakan berlebihan. Mereka belum menambahkan garis tren palsu atau interpretasi lain yang tidak perlu. Dibandingkan dengan sebagian besar angka data yang disajikan di media, plot ini sangat bagus - ini adalah contoh yang cukup baik untuk membiarkan data berbicara sendiri. Singkatnya, saya pikir Anda terlalu memikirkannya. Saya tidak ragu bahwa Anda dapat menemukan beberapa cara untuk meningkatkan plot, tetapi sederhana biasanya yang terbaik.
sumber
Saya setuju bahwa grafik tersebut menyesatkan dalam arti bahwa grafik tersebut dimaksudkan untuk menunjukkan bahwa tidak ada titik data dalam kuadran yang secara kategorik digambarkan sebagai% cuti tinggi,% tinggi lulusan. Apa yang tinggi dan rendah menjadi relatif terhadap batas sumbu, bukan data aktual. Meskipun secara teori dimungkinkan untuk memiliki bangsal dengan populasi yang 100% berpendidikan perguruan tinggi, bangsal seperti itu tidak ada. Anda tidak perlu menemukan titik data untuk menghasilkan grafik yang menyesatkan: sumbu patah yang menunjukkan perubahan berlebihan adalah contoh yang tidak terlalu berbeda dengan yang ini.
Cara yang lebih obyektif untuk memvisualisasikan data ini adalah dengan menetapkan batas sumbu sebar plot pada maksimum / menit data dan kemudian membagi grafik menjadi kuadran dari area yang sama.
Alasan saya akan pergi untuk luas kuadran yang sama adalah agar kuadran menunjukkan hubungan linier yang setara antara variabel. Deskripsi kategoris kuadran, "tinggi" dan "rendah" diperlakukan sebagai ekuivalen sehingga area juga harus sama.
Jika sebaliknya kami ingin menggunakan kuadran sebagai cara lain untuk menggambarkan data secara kuantitatif, kami dapat menetapkan batas kuadran pada rata-rata setiap variabel seperti yang ditunjukkan dalam Visualisasi Data dengan contoh R: 100 (tersedia untuk dipratinjau di Google Buku, hal.283.286).
Untuk menambahkan lapisan analitik lain ke visualisasi plot pencar, kita dapat menggunakan warna dan ukuran titik-titik. Misalnya, warna dapat digunakan untuk memisahkan kota-kota universitas dari yang lain, menunjukkan tingkat partisipasi pemilih dalam gradien atau menyoroti hasil Pemilihan Umum untuk bangsal-bangsal tersebut. Saya tidak yakin apakah ukuran akan efektif dengan begitu banyak titik data, tetapi Anda berpotensi menyelidiki berbagai pita populasi, seperti 65+, dan bagaimana mereka terwakili dalam data.
Menurut saya ada juga dua peringatan penting yang perlu diingat ketika melihat grafik ini: pertama, menghitung semua lulusan, terlepas dari apakah mereka memberikan suara dalam referendum atau tidak, dan kedua, itu mencakup lulusan tetap dengan paspor UE yang tidak dapat memberikan suara dalam referendum (dengan asumsi data sumber berbasis Sensus).
sumber
Saya setuju, sangat menyesatkan. Saya akan menghilangkan latar belakang berwarna bersama-sama.
Jika Anda bersikeras mewarnai, mungkin gradien yang sesuai dengan kepadatan populasi? Ini adalah, warna latar belakang menjadi lebih gelap karena lebih banyak bangsal masuk dalam kategori "terdidik vs cuti"
Pasti ada tren, saya tidak berpikir ada yang akan membantah itu - mungkin penulis harus tetap dengan semacam trendline?
sumber