Bagaimana seharusnya grafik BBC ini (korelasi Brexit antara pendidikan dan hasil) telah ditarik?

8

BBC telah menganalisis lebih banyak data referendum Brexit; bagan pertama di artikel mereka menarik perhatian saya:

masukkan deskripsi gambar di sini

Tampaknya aneh untuk membagi sumbu x pada 50%. Tentunya ini seharusnya dipecah pada median data? (Atau maksudnya jika data terdistribusi secara normal; tetapi menyipitkan mata, sepertinya tidak demikian di sini.)

(Mereka belum merilis data mereka, tetapi google cepat menunjukkan lulusan kira-kira 25% dari populasi orang dewasa, dan itu cocok dengan eye-balling the chart, jadi saya akan pergi dengan itu.)

Tapi itu membuat saya berpikir bagaimana cara menggambar bagan ini seobjektif mungkin. Akankah lebih baik untuk menjaga sumbu x linier, dan memiliki dua kotak di sebelah kanan menjadi tiga kali lebih lebar? Atau simpan semua kotak dengan ukuran yang sama, dan remas dan rentangkan sumbu x, sehingga setiap rentang N piksel mencakup jumlah titik data yang sama? Atau sesuatu yang lain?

Darren Cook
sumber
5
Saya tidak melihat masalah nyata di sini. Cuti> Tetap sangat berkaitan dengan mempertimbangkan hasilnya. Lebih banyak lulusan daripada tidak dapat dipahami. Jika ambang yang berbeda telah dipilih untuk yang terakhir, beberapa pembaca lain mungkin akan bingung. Bertentangan dengan satu jawaban, alasan bahwa tidak ada titik data yang ditampilkan dalam satu kuadran adalah karena tidak ada yang termasuk di sana; apa yang menyesatkan di sana? Dapat diperdebatkan bahwa semua bayangan mengalihkan perhatian, tetapi ada upaya untuk membimbing interpretasi.
Nick Cox
4
Perhatikan bahwa, yang mungkin sangat mengejutkan siapa pun yang berpikiran statistik, plot pencar secara luas dianggap dalam jurnalisme data dan bidang terkait sebagai terlalu sulit untuk khalayak umum!
Nick Cox
2
Plot ini umumnya dilakukan dengan baik, seperti yang dicatat oleh beberapa orang. Satu-satunya kritik nyata yang langsung menjadi perhatian adalah penempatan poin yang berlebihan di tengah: yang membuat sulit untuk menilai jumlah poin di sana, yang membuat plot sedikit kurang berguna daripada yang seharusnya.
whuber

Jawaban:

3

Saya pikir versi FT data serupa ini berfungsi sebagai jawaban yang layak tentang bagaimana menyajikan data secara adil.

masukkan deskripsi gambar di sini

Alih-alih absolut pada skala 0 - 100, itu memperbesar untuk fokus pada perubahan. Garis-garis membantu memverifikasi pola yang sulit untuk dinilai pada poin saja karena semua overstriking. (Berapa banyak dari 1070 bangsal yang dapat Anda temukan di aslinya?)

xan
sumber
1
Terima kasih. Saya suka ide ini: ketika sebagian besar item dalam satu bagian dari bagan memiliki kesamaan (wilayah geografis, di sini), sorot semua item dengan fitur itu. (Garis tren juga bekerja dengan sangat baik dalam kasus ini.)
Darren Cook
10

Saya setuju bahwa mewarnai kuadran merah muda sebagian besar kosmetik, tetapi secara keseluruhan saya melihat ini sebagai plot informatif yang jelas. Pesannya langsung terlihat dan tidak menyesatkan. BBC telah merencanakan titik data aktual. Mereka belum memanipulasi sumbu x atau y. Anotasi pada plot benar dan tidak dinyatakan berlebihan. Mereka belum menambahkan garis tren palsu atau interpretasi lain yang tidak perlu. Dibandingkan dengan sebagian besar angka data yang disajikan di media, plot ini sangat bagus - ini adalah contoh yang cukup baik untuk membiarkan data berbicara sendiri. Singkatnya, saya pikir Anda terlalu memikirkannya. Saya tidak ragu bahwa Anda dapat menemukan beberapa cara untuk meningkatkan plot, tetapi sederhana biasanya yang terbaik.

Gordon Smyth
sumber
4
+1 sejak saya setuju. Saya akan menambahkan bahwa pemisahan pada median atau rata-rata tidak lebih sewenang-wenang maka pada 50%, itu hanya tergantung apa yang ingin Anda tunjukkan.
Tim
4

Saya setuju bahwa grafik tersebut menyesatkan dalam arti bahwa grafik tersebut dimaksudkan untuk menunjukkan bahwa tidak ada titik data dalam kuadran yang secara kategorik digambarkan sebagai% cuti tinggi,% tinggi lulusan. Apa yang tinggi dan rendah menjadi relatif terhadap batas sumbu, bukan data aktual. Meskipun secara teori dimungkinkan untuk memiliki bangsal dengan populasi yang 100% berpendidikan perguruan tinggi, bangsal seperti itu tidak ada. Anda tidak perlu menemukan titik data untuk menghasilkan grafik yang menyesatkan: sumbu patah yang menunjukkan perubahan berlebihan adalah contoh yang tidak terlalu berbeda dengan yang ini.

Cara yang lebih obyektif untuk memvisualisasikan data ini adalah dengan menetapkan batas sumbu sebar plot pada maksimum / menit data dan kemudian membagi grafik menjadi kuadran dari area yang sama.

Alasan saya akan pergi untuk luas kuadran yang sama adalah agar kuadran menunjukkan hubungan linier yang setara antara variabel. Deskripsi kategoris kuadran, "tinggi" dan "rendah" diperlakukan sebagai ekuivalen sehingga area juga harus sama.

Jika sebaliknya kami ingin menggunakan kuadran sebagai cara lain untuk menggambarkan data secara kuantitatif, kami dapat menetapkan batas kuadran pada rata-rata setiap variabel seperti yang ditunjukkan dalam Visualisasi Data dengan contoh R: 100 (tersedia untuk dipratinjau di Google Buku, hal.283.286).

Untuk menambahkan lapisan analitik lain ke visualisasi plot pencar, kita dapat menggunakan warna dan ukuran titik-titik. Misalnya, warna dapat digunakan untuk memisahkan kota-kota universitas dari yang lain, menunjukkan tingkat partisipasi pemilih dalam gradien atau menyoroti hasil Pemilihan Umum untuk bangsal-bangsal tersebut. Saya tidak yakin apakah ukuran akan efektif dengan begitu banyak titik data, tetapi Anda berpotensi menyelidiki berbagai pita populasi, seperti 65+, dan bagaimana mereka terwakili dalam data.

Menurut saya ada juga dua peringatan penting yang perlu diingat ketika melihat grafik ini: pertama, menghitung semua lulusan, terlepas dari apakah mereka memberikan suara dalam referendum atau tidak, dan kedua, itu mencakup lulusan tetap dengan paspor UE yang tidak dapat memberikan suara dalam referendum (dengan asumsi data sumber berbasis Sensus).

Gherka
sumber
Terima kasih. Menggunakan max dan min tidak akan jauh di sini, tetapi dengan distribusi berekor panjang, atau satu outlier yang menjengkelkan (misalnya Anda bisa membayangkan kota universitas mungkin memiliki bangsal yang mencapai 80%), masih bisa berubah. Apakah Anda masih selalu menggunakan min / max lalu kuadran dari area genap?
Darren Cook
Saya telah mengedit jawaban saya untuk menjelaskan mengapa saya menggunakan area genap dalam kasus ini. Jika distribusinya berekor panjang, mungkin tidak tepat menggunakan kuadran untuk mengategorikan hasil dengan cara ini.
gherka
2

Saya setuju, sangat menyesatkan. Saya akan menghilangkan latar belakang berwarna bersama-sama.

Jika Anda bersikeras mewarnai, mungkin gradien yang sesuai dengan kepadatan populasi? Ini adalah, warna latar belakang menjadi lebih gelap karena lebih banyak bangsal masuk dalam kategori "terdidik vs cuti"

Pasti ada tren, saya tidak berpikir ada yang akan membantah itu - mungkin penulis harus tetap dengan semacam trendline?

Mohammad Athar
sumber
3
Saya setuju bahwa garis tren (mungkin kurva) adalah tambahan alami untuk yang berpikiran statistik, tetapi ini adalah grafik di media massa.
Nick Cox