Pengguna sering tergoda untuk memecah nilai sumbu untuk menyajikan data berbagai urutan besarnya pada grafik yang sama (lihat di sini ). Meskipun ini mungkin nyaman, itu tidak selalu merupakan cara yang disukai untuk menampilkan data (bisa menyesatkan di terbaik). Apa cara alternatif untuk menampilkan data yang berbeda dalam beberapa urutan besarnya?
Saya dapat memikirkan dua cara, untuk mentransformasikan data atau menggunakan plot kisi. Apa pilihan lain?
data-visualization
logarithm
Roman Luštrik
sumber
sumber
Jawaban:
Saya sangat waspada menggunakan sumbu logaritmik pada grafik batang . Masalahnya adalah Anda harus memilih titik awal dari sumbu, dan ini hampir selalu sewenang-wenang. Anda dapat memilih untuk membuat dua batang memiliki ketinggian yang sangat berbeda, atau ketinggian hampir sama, hanya dengan mengubah nilai minimum pada sumbu. Ketiga grafik ini semua memplot data yang sama:
Alternatif untuk kapak diskontinyu, yang belum ada yang disebutkan, adalah dengan hanya menampilkan tabel nilai. Dalam banyak kasus, tabel lebih mudah dipahami daripada grafik.
sumber
Beberapa ide tambahan:
(1) Anda tidak perlu membatasi diri pada transformasi logaritmik. Cari situs ini untuk tag "transformasi data", misalnya. Beberapa data cocok untuk transformasi tertentu seperti root atau logit. (Transformasi semacam itu - bahkan log - biasanya harus dihindari ketika menerbitkan grafik untuk audiens non-teknis. Di sisi lain, mereka dapat menjadi alat yang sangat baik untuk melihat pola dalam data.)
(2) Anda dapat meminjam teknik kartografi standar untuk menginset detail suatu bagan di dalam atau di samping bagan Anda. Khususnya, Anda akan memplot nilai ekstrem sendiri pada satu bagan dan semua (atau) data lainnya pada yang lain dengan rentang sumbu yang lebih terbatas, kemudian secara grafik mengatur keduanya bersama dengan indikasi (visual dan / atau tertulis) dari hubungan diantara mereka. Pikirkan peta AS di mana Alaska dan Hawaii inset pada skala yang berbeda. (Ini tidak akan bekerja dengan semua jenis grafik, tetapi bisa efektif dengan diagram batang dalam ilustrasi Anda.) [Saya melihat ini mirip dengan jawaban mbq baru-baru ini.]
(3) Anda dapat menunjukkan plot yang patah berdampingan dengan plot yang sama pada sumbu yang tidak terputus.
(4) Dalam kasus contoh bagan Anda, pilih sumbu vertikal yang sesuai (mungkin sangat membentang) dan berikan utilitas panning. [Ini lebih merupakan trik daripada teknik yang benar-benar bermanfaat, IMHO, tetapi mungkin berguna dalam beberapa kasus khusus.]
(5) Pilih skema yang berbeda untuk menampilkan data. Alih-alih bagan batang yang menggunakan panjang untuk mewakili nilai, pilih bagan di mana bidang simbol mewakili nilai, misalnya. [Jelas trade-off terlibat di sini.]
Pilihan teknik Anda kemungkinan akan tergantung pada tujuan plot: plot yang dibuat untuk eksplorasi data sering berbeda dari plot untuk khalayak umum, misalnya.
sumber
Mungkin itu dapat diklasifikasikan sebagai kisi, tetapi saya akan mencoba; plot semua bilah yang diskalakan ke tertinggi dalam satu panel dan letakkan panel lain yang memperlihatkan zoom pada yang lebih rendah. Saya menggunakan teknik ini sekali dalam kasus sebaran, dan hasilnya cukup bagus.
sumber
Saya akan memisahkan masalah sumbu log dari masalah grafik batang.
Grafik batang tidak akan pernah masuk akal jika tidak ada asal yang masuk akal dan tetap yang mengambil peran kontrol (garis dasar, kosong). Tapi ini tidak ada hubungannya dengan sumbu log.
Satu-satunya penggunaan rutin yang saya miliki untuk diagram batang adalah histogram. Tetapi saya dapat membayangkan bahwa mereka melakukan dengan baik untuk menunjukkan perbedaan pada asal ini (Anda juga segera melihat apakah perbedaannya positif atau negatif). Karena bar menggambarkan suatu area, saya cenderung menganggap barchart sebagai versi area yang sangat tidak jelas di bawah kurva. Artinya, sumbu x harus memiliki makna metrik (yang mungkin terjadi dengan waktu, tetapi tidak dengan kota).
Jika saya mendapati diri saya bertanya-tanya asal apa yang digunakan untuk log dari sesuatu yang memiliki asal "alami" pada 0, saya akan mundur dan berpikir sedikit tentang apa yang sedang terjadi. Sangat sering, masalah seperti itu hanyalah indikator bahwa log bukanlah transformasi yang masuk akal di sini.
Sekarang bagan batang dengan sumbu log akan menekankan kenaikan atau penurunan yang terjadi dalam banyak. Contoh yang masuk akal yang dapat saya pikirkan saat ini semua memiliki hubungan linier dengan nilai yang menarik. Tetapi mungkin orang lain menemukan contoh yang baik.
Jadi saya pikir transformasi data harus masuk akal sehubungan dengan makna data yang ada. Ini adalah kasus dengan unit fisika-kimia yang saya sebutkan di atas (A sebanding dengan konsentrasi, dan pH, misalnya, memiliki hubungan linier dengan tegangan dalam pH-meter). Bahkan, begitu banyak kasusnya, bahwa unit log mendapatkan nama baru, dan digunakan secara linear.
Terakhir, namun tidak kalah pentingnya, saya berasal dari spektroskopi vibrasi, tempat kapak patah cukup sering digunakan. Dan saya menganggap ini menggunakan salah satu dari beberapa contoh di mana pemecahan sumbu tidak menipu. Namun, kami tidak memiliki perubahan dalam urutan besarnya. Kami hanya memiliki wilayah tidak informatif 30 - 40% dari rentang x kami: Berikut ini contoh: Untuk sampel ini, bagian antara 1800 - 2800 / cm tidak dapat berisi informasi yang berguna.
Karenanya, rentang spektral yang tidak informasi dihilangkan (yang juga menunjukkan rentang spektral yang sebenarnya kami gunakan untuk pemodelan chemometrik):
Tetapi untuk interpretasi data, kita perlu pembacaan posisi-x yang tepat. Tetapi secara umum kita tidak membutuhkan kelipatan yang menjangkau rentang yang berbeda (yaitu ada hubungan seperti itu, tetapi sebagian besar koneksi lebih rumit. Misalnya: Sinyal pada 3050 / cm, jadi kami memiliki zat tak jenuh atau aromatik. Tetapi tidak ada sinyal yang kuat pada 1000 / cm , jadi tidak ada cincin aromatik mono, meta, atau 1,3,5-tersubtitusi ...)
Jadi lebih baik untuk menggambarkan x dengan skala yang lebih besar (sebenarnya kita sering menggunakan panduan milimeter-sheet seperti atau memberi label lokasi yang tepat). Jadi, kita mematahkan porosnya, dan mendapatkan penskalaan x yang lebih besar:
Sebenarnya, ini sangat mirip dengan facetting:
tetapi sumbu patah IMHO menekankan bahwa skala sumbu x di kedua bagian adalah sama. Yaitu Interval dalam wilayah yang diplot sama.
Untuk menekankan intensitas kecil (sumbu-y), kami menggunakan insets yang diperbesar:
[ ... Untuk detailnya, lihat wilayah diperbesar (x 20) dengan warna biru .... ]
Dan ini tentu saja mungkin dengan contoh di plot yang terhubung juga.
sumber
Dua ide yang disinggung, tetapi tidak secara eksplisit dijelaskan ketika saya melihat jawaban yang sangat baik dan komentar adalah bahwa Anda menggunakan diagram batang "dengan cara yang tidak konsisten dengan pelabelan" dan data dinormalisasi / tidak berdimensi.
Jenis plot:
Grafik gaya bintang / laba-laba / radar (tautan) (tautan) sering sangat baik untuk membandingkan beberapa hal yang berbeda di sepanjang banyak koordinat. Ada sejumlah plot yang sangat berguna yang (sayangnya) jarang terjadi dalam presentasi bisnis, kemungkinan karena kepemimpinan lebih suka menggunakan kesimpulan untuk membuat keputusan daripada menggunakan informasi untuk mendapatkan pemahaman dan kemudian menggunakan pemahaman untuk membuat keputusan. Dalam bisnis kadang-kadang sangat sulit untuk membangun konsensus sehingga pendekatan hasil-saja dapat menghasilkan hasil yang lebih tinggi dalam lingkungan konsensus-pertama, keputusan-berikutnya. Ini menginformasikan popularitas bagan batang / kolom. Harap perhatikan contoh tipe grafik lain yang bagus untuk mendapatkan pemahaman (tautan) .
Transformasi:
Jika Anda membagi nilai yang Anda bagan dengan nilai "karakteristik" maka Anda dapat mengubah penskalaan untuk meningkatkan keterbacaan tanpa kehilangan informasi. Fluid Dynamicists lebih menyukai angka tanpa dimensi karena utilitas prediktif dan elastisitasnya dalam aplikasi. Mereka melihat hal-hal seperti Teorema Buckingham Pi sebagai sumber untuk bentuk tanpa dimensi kandidat (tautan) . Populer, dan berguna, nomor tanpa dimensi termasuk Nomor Reynolds, nomor Mach, nomor Biot, nomor Grashof, Pi, nomor Raleigh, nomor Stokes, dan nomor Sherwood. (link) Anda tidak harus menjadi ahli fisika untuk menyukai angka tanpa dimensi karena mereka berguna dalam aplikasi non-fisika. Ukuran seperti kerapatan, homogenitas, sirkularitas, dan coplanaritas dapat menentukan gambar, bidang piksel, atau distribusi probabilitas multivarian. Jangan hanya mempertimbangkan untuk mengambil logaritma, atau jarak relatif dari nilai yang diketahui - Anda juga dapat mempertimbangkan membalik angka, mengambil akar kuadratnya.
Semoga berhasil. Harap beri tahu kami bagaimana hasilnya.
sumber
Solusi patah-sumbu bekerja paling baik ketika ada terobosan yang jelas tepat di seluruh plot dan ordinat diberi label sehingga jaraknya jelas. Keuntungan dari hal ini adalah bahwa skala dipertahankan pada dua set nilai. Plot panel dengan skala yang berbeda mungkin tidak membawa variasi relatif dalam kelompok rendah dan tinggi. Saya memang menyukai ide plot zoom-in, yang saya programkan untuk scatterplots tetapi tidak terpikir untuk menggunakan plot bar.
sumber