Bagaimana menentukan apakah sumbu y grafik harus dimulai dari nol?

45

Salah satu cara umum untuk "berbohong dengan data" adalah dengan menggunakan skala sumbu y yang membuatnya tampak seolah-olah perubahan lebih signifikan daripada yang sebenarnya.

Ketika saya meninjau publikasi ilmiah, atau laporan laboratorium siswa, saya sering frustrasi dengan "dosa visualisasi data" ini (yang saya percaya penulis lakukan secara tidak sengaja, tetapi masih menghasilkan presentasi yang menyesatkan.)

Namun, "selalu memulai sumbu y pada nol" bukanlah aturan yang sulit dan cepat. Sebagai contoh, Edward Tufte menunjukkan bahwa dalam suatu rangkaian waktu, garis dasar tidak harus nol:

Secara umum, dalam rangkaian waktu, gunakan garis dasar yang menunjukkan data bukan titik nol. Jika titik nol terjadi secara wajar dalam memplot data, baiklah. Tetapi jangan menghabiskan banyak ruang vertikal kosong mencoba mencapai ke titik nol dengan biaya menyembunyikan apa yang terjadi di jalur data itu sendiri. (Buku, Bagaimana Berbohong Dengan Statistik, salah tentang hal ini.)

Sebagai contoh, di semua tempat, dari nol poin dalam rangkaian waktu, lihat publikasi penelitian ilmiah utama. Para ilmuwan ingin menunjukkan data mereka, bukan nol.

Desakan untuk mengontekstualisasikan data adalah hal yang baik, tetapi konteksnya tidak berasal dari ruang vertikal kosong yang mencapai nol, angka yang bahkan tidak muncul dalam banyak set data yang baik. Sebaliknya, untuk konteks, tunjukkan lebih banyak data secara horizontal!

Saya ingin menunjukkan presentasi yang menyesatkan dalam makalah yang saya ulas, tetapi saya tidak ingin menjadi purist nol-y-sumbu.

Apakah ada pedoman yang membahas kapan memulai sumbu y pada nol, dan ketika ini tidak perlu dan / atau tidak pantas? (Terutama dalam konteks karya akademik.)

ff524
sumber
3
Saya pikir apakah termasuk (tidak termasuk) 0 berpotensi menyesatkan tergantung pada cerita yang diceritakan.
gung - Reinstate Monica
2
Dalam sebuah pembicaraan, frasa "perhatikan nol yang sangat ditekan" atau serupa dapat digunakan untuk membawa kejujuran pada sosok yang berpotensi menyesatkan. Saya tidak senang dengan itu dalam bahan cetak, tetapi dalam keadaan darurat Anda dapat menggunakannya di sana juga.
dmckee
Untuk menghindari semua ini, saya menggunakan boxplots bila memungkinkan. Tidak perlu menghitung rata-rata dan bar kesalahan dan itu dikemas dengan informasi berharga (misalnya distribusi data, penyebaran, kemiringan, jangkauan) semua dalam satu plot. Plus, Anda menunjukkan data mentah.
Stefan
y=0
@NickCox terima kasih atas komentar Anda! Saya setuju bahwa setelah ANOVA selesai menunjukkan cara dan bilah galat lebih masuk akal. Namun, sebelum menjalankan analisis apa pun, saya menemukan plot kotak lebih informatif dan memberikan informasi tentang bagaimana data Anda terlihat dan apakah ANOVA yang dipilih mungkin sesuai atau tidak. "Berbohong dengan data" sudah bisa terjadi ketika mis. Tes parametrik dipilih tetapi data tidak memenuhi asumsi yang diperlukan. Oleh karena itu, bagi saya sebagai pembaca studi ilmiah, saya selalu suka melihat plot kotak untuk mengambil keputusan sendiri mengenai hasil yang disajikan.
Stefan

Jawaban:

40
  • Jangan gunakan ruang dalam grafik dengan cara apa pun yang tidak membantu pemahaman. Diperlukan ruang untuk menampilkan data!

  • Gunakan penilaian ilmiah (teknik, medis, sosial, bisnis, ...) Anda serta penilaian statistik Anda. (Jika Anda bukan klien atau pelanggan, bicarakan dengan seseorang di lapangan untuk mendapatkan ide tentang apa yang menarik atau penting, lebih disukai mereka yang menugaskan analisis.)

  • y

Itu adalah tiga aturan sederhana. (Tidak ada yang mengesampingkan ketegangan di antara mereka kadang-kadang.)

Berikut adalah contoh sederhana, tetapi ketiga poin muncul: Anda mengukur suhu tubuh seorang pasien dalam Celsius, atau dalam Fahrenheit, atau bahkan dalam kelvin: pilihlah. Dalam hal apa pun itu membantu atau bahkan logis untuk bersikeras menunjukkan suhu nol? Informasi penting, bahkan penting secara medis atau fisiologis, akan dikaburkan jika tidak.

Ini adalah kisah nyata dari sebuah presentasi. Seorang peneliti menunjukkan data rasio jenis kelamin untuk berbagai negara bagian dan wilayah persatuan di India. Grafik adalah bagan batang dengan semua batang mulai dari nol. Semua bar dekat dengan panjang yang sama meskipun ada beberapa variasi. Itu benar, tetapi cerita yang menarik adalah bahwa area berbeda meskipun memiliki kesamaan, bukan bahwa mereka sama meskipun ada perbedaan. Saya menyarankan bahwa keseimbangan antara pria dan wanita (1 atau 100 wanita / 100 pria) adalah tingkat referensi yang jauh lebih alami. (Saya juga akan terbuka untuk menggunakan beberapa level keseluruhan, seperti rerata nasional, sebagai referensi.) Bahkan beberapa orang statistik yang telah mendengar cerita kecil ini kadang-kadang menjawab, "Tidak; balok harus selalu dimulai dari nol." Bagi saya itu tidak lebih baik dari dogma yang tidak relevan dalam kasus seperti itu.

yy

Jenis plot yang umum, terutama yang terlihat dalam beberapa ilmu biologi dan medis, menunjukkan rata-rata atau ringkasan lainnya dengan batang tebal mulai dari nol dan standar kesalahan atau interval berbasis standar deviasi yang menunjukkan ketidakpastian oleh batang tipis. Plot detonator atau dinamit seperti itu, sebagaimana telah dipanggil oleh mereka yang tidak setuju, mungkin populer sebagian karena diktum yang nol harus selalu ditampilkan. Efek bersihnya adalah untuk menekankan perbandingan dengan nol yang sering kurang minat atau utilitas.

Beberapa orang ingin menunjukkan nol, tetapi juga menambahkan jeda skala untuk menunjukkan bahwa skala terganggu. Fashions berubah dan perubahan teknologi. Beberapa dekade yang lalu, ketika para peneliti menggambar grafik mereka sendiri atau mendelegasikan tugas kepada teknisi, lebih mudah untuk meminta hal ini dilakukan dengan tangan. Sekarang program grafis sering tidak mendukung pemutusan skala, yang saya pikir tidak ada ruginya. Bahkan jika mereka melakukannya, itu adalah tambahan rewel yang dapat menyia-nyiakan sebagian kecil dari area grafik

x

Secara alami ada aturan nol yang berlaku selain tiga yang disebutkan.

  • Apa pun yang Anda lakukan, sangat jelas. Beri label kapak Anda secara konsisten dan informatif. Kemudian percayalah bahwa pembaca yang cermat akan melihat apa yang telah Anda lakukan.

Jadi pada titik ini saya sangat setuju dengan Edward Tufte, dan saya tidak setuju dengan Darrell Huff.

EDIT 9 Mei 2016:

alih-alih mencoba untuk selalu memasukkan garis dasar 0 di semua bagan Anda, gunakan garis dasar yang logis dan bermakna sebagai gantinya

Kairo, A. 2016. Seni Sejati: Data, Bagan, dan Peta untuk Komunikasi. San Francisco, CA: New Riders, hal.136.

Nick Cox
sumber
7
Sebagai tambahan untuk itu: Saya pikir orang lebih cenderung dogmatis menempel dengan "mulai dari nol" ketika data diwakili oleh bar, dengan alasan bahwa bar menunjukkan area dan area menyesatkan jika tidak dimulai dari nol. Pada plot Cleveland dot - yang seringkali merupakan visualisasi yang lebih cocok - tampaknya tidak ada argumen yang meyakinkan untuk memulai dari nol, dan orang-orang tampaknya lebih bersedia untuk fleksibel mengenai dari mana mereka memulai.
Silverfish
4
Jawaban yang bagus Saya mengajukan pertanyaan ini dalam konteks meninjau makalah yang secara konsisten menggunakan rentang sumbu yang tidak sesuai (menekankan variasi yang tidak signifikan dalam data). Jawaban ini membuat saya sadar bahwa saya benar - benar frustrasi dengan kurangnya penilaian (statistik dan teknik) dalam memahami dan menafsirkan data - hal yang jauh lebih konstruktif untuk dikomentari dalam ulasan daripada mengeluh tentang kisaran sumbu.
ff524
4
Aturan tentang memulai sumbu pada nol hanya masuk akal untuk dipikirkan untuk variabel kontinu yang merupakan rasio, sehingga nol memiliki arti yang nyata. Berat 0 tidak berat. Dll. Tetapi suhu dalam C atau F menggunakan nilai arbitrer untuk nol, sehingga tidak ada gunanya berpikir untuk memulai sumbu di sana.
Harvey Motulsky
2
3
Bagus, tapi saya ingin menunjukkan bahwa titik "penilaian" tergantung pada audiens (audiens selalu penting!). Audiensi teknis akan membaca sumbu dan memahami implikasinya. Sebagian kecil dari populasi awam akan dengan tegas mengabaikan label sumbu dan menarik kesimpulan dari bentuk grafik di bawah asumsi yang berpotensi salah tentang skala. Jika grafik ini ditujukan untuk audiens awam maka Anda harus memperhitungkannya dalam penilaian Anda.
dmckee