Salah satu cara umum untuk "berbohong dengan data" adalah dengan menggunakan skala sumbu y yang membuatnya tampak seolah-olah perubahan lebih signifikan daripada yang sebenarnya.
Ketika saya meninjau publikasi ilmiah, atau laporan laboratorium siswa, saya sering frustrasi dengan "dosa visualisasi data" ini (yang saya percaya penulis lakukan secara tidak sengaja, tetapi masih menghasilkan presentasi yang menyesatkan.)
Namun, "selalu memulai sumbu y pada nol" bukanlah aturan yang sulit dan cepat. Sebagai contoh, Edward Tufte menunjukkan bahwa dalam suatu rangkaian waktu, garis dasar tidak harus nol:
Secara umum, dalam rangkaian waktu, gunakan garis dasar yang menunjukkan data bukan titik nol. Jika titik nol terjadi secara wajar dalam memplot data, baiklah. Tetapi jangan menghabiskan banyak ruang vertikal kosong mencoba mencapai ke titik nol dengan biaya menyembunyikan apa yang terjadi di jalur data itu sendiri. (Buku, Bagaimana Berbohong Dengan Statistik, salah tentang hal ini.)
Sebagai contoh, di semua tempat, dari nol poin dalam rangkaian waktu, lihat publikasi penelitian ilmiah utama. Para ilmuwan ingin menunjukkan data mereka, bukan nol.
Desakan untuk mengontekstualisasikan data adalah hal yang baik, tetapi konteksnya tidak berasal dari ruang vertikal kosong yang mencapai nol, angka yang bahkan tidak muncul dalam banyak set data yang baik. Sebaliknya, untuk konteks, tunjukkan lebih banyak data secara horizontal!
Saya ingin menunjukkan presentasi yang menyesatkan dalam makalah yang saya ulas, tetapi saya tidak ingin menjadi purist nol-y-sumbu.
Apakah ada pedoman yang membahas kapan memulai sumbu y pada nol, dan ketika ini tidak perlu dan / atau tidak pantas? (Terutama dalam konteks karya akademik.)
sumber
Jawaban:
Jangan gunakan ruang dalam grafik dengan cara apa pun yang tidak membantu pemahaman. Diperlukan ruang untuk menampilkan data!
Gunakan penilaian ilmiah (teknik, medis, sosial, bisnis, ...) Anda serta penilaian statistik Anda. (Jika Anda bukan klien atau pelanggan, bicarakan dengan seseorang di lapangan untuk mendapatkan ide tentang apa yang menarik atau penting, lebih disukai mereka yang menugaskan analisis.)
Itu adalah tiga aturan sederhana. (Tidak ada yang mengesampingkan ketegangan di antara mereka kadang-kadang.)
Berikut adalah contoh sederhana, tetapi ketiga poin muncul: Anda mengukur suhu tubuh seorang pasien dalam Celsius, atau dalam Fahrenheit, atau bahkan dalam kelvin: pilihlah. Dalam hal apa pun itu membantu atau bahkan logis untuk bersikeras menunjukkan suhu nol? Informasi penting, bahkan penting secara medis atau fisiologis, akan dikaburkan jika tidak.
Ini adalah kisah nyata dari sebuah presentasi. Seorang peneliti menunjukkan data rasio jenis kelamin untuk berbagai negara bagian dan wilayah persatuan di India. Grafik adalah bagan batang dengan semua batang mulai dari nol. Semua bar dekat dengan panjang yang sama meskipun ada beberapa variasi. Itu benar, tetapi cerita yang menarik adalah bahwa area berbeda meskipun memiliki kesamaan, bukan bahwa mereka sama meskipun ada perbedaan. Saya menyarankan bahwa keseimbangan antara pria dan wanita (1 atau 100 wanita / 100 pria) adalah tingkat referensi yang jauh lebih alami. (Saya juga akan terbuka untuk menggunakan beberapa level keseluruhan, seperti rerata nasional, sebagai referensi.) Bahkan beberapa orang statistik yang telah mendengar cerita kecil ini kadang-kadang menjawab, "Tidak; balok harus selalu dimulai dari nol." Bagi saya itu tidak lebih baik dari dogma yang tidak relevan dalam kasus seperti itu.
Jenis plot yang umum, terutama yang terlihat dalam beberapa ilmu biologi dan medis, menunjukkan rata-rata atau ringkasan lainnya dengan batang tebal mulai dari nol dan standar kesalahan atau interval berbasis standar deviasi yang menunjukkan ketidakpastian oleh batang tipis. Plot detonator atau dinamit seperti itu, sebagaimana telah dipanggil oleh mereka yang tidak setuju, mungkin populer sebagian karena diktum yang nol harus selalu ditampilkan. Efek bersihnya adalah untuk menekankan perbandingan dengan nol yang sering kurang minat atau utilitas.
Beberapa orang ingin menunjukkan nol, tetapi juga menambahkan jeda skala untuk menunjukkan bahwa skala terganggu. Fashions berubah dan perubahan teknologi. Beberapa dekade yang lalu, ketika para peneliti menggambar grafik mereka sendiri atau mendelegasikan tugas kepada teknisi, lebih mudah untuk meminta hal ini dilakukan dengan tangan. Sekarang program grafis sering tidak mendukung pemutusan skala, yang saya pikir tidak ada ruginya. Bahkan jika mereka melakukannya, itu adalah tambahan rewel yang dapat menyia-nyiakan sebagian kecil dari area grafik
Secara alami ada aturan nol yang berlaku selain tiga yang disebutkan.
Jadi pada titik ini saya sangat setuju dengan Edward Tufte, dan saya tidak setuju dengan Darrell Huff.
EDIT 9 Mei 2016:
Kairo, A. 2016. Seni Sejati: Data, Bagan, dan Peta untuk Komunikasi. San Francisco, CA: New Riders, hal.136.
sumber