Apa alternatif untuk kapak yang patah?

28

Pengguna sering tergoda untuk memecah nilai sumbu untuk menyajikan data berbagai urutan besarnya pada grafik yang sama (lihat di sini ). Meskipun ini mungkin nyaman, itu tidak selalu merupakan cara yang disukai untuk menampilkan data (bisa menyesatkan di terbaik). Apa cara alternatif untuk menampilkan data yang berbeda dalam beberapa urutan besarnya?

Saya dapat memikirkan dua cara, untuk mentransformasikan data atau menggunakan plot kisi. Apa pilihan lain?

Roman Luštrik
sumber
1
Panduan Excel itu terlihat sangat seram ...
5
Bisakah Anda bayangkan bagaimana tutorial tentang R terlihat pada orang yang belum pernah melihat sederet kode dalam hidupnya? :)
Roman Luštrik
3
Ok, tapi saya juga bisa membayangkan semua orang yang menggambar secara manual puluhan bar break di Excel dan percaya bahwa itu adalah satu-satunya (dan dengan demikian termudah dan tercepat) untuk melakukan ini. Atau orang-orang menghabiskan berjam-jam mencoba menyatukan pemformatan dalam dokumen Word yang besar.
1
"Ayah, maafkan mereka, karena mereka tidak tahu apa yang mereka lakukan." datang ke pikiran. :)
Roman Luštrik
3
Band resmi stats.stackexchange.com: The Broken Axes.
Matt Parker

Jawaban:

17

Saya sangat waspada menggunakan sumbu logaritmik pada grafik batang . Masalahnya adalah Anda harus memilih titik awal dari sumbu, dan ini hampir selalu sewenang-wenang. Anda dapat memilih untuk membuat dua batang memiliki ketinggian yang sangat berbeda, atau ketinggian hampir sama, hanya dengan mengubah nilai minimum pada sumbu. Ketiga grafik ini semua memplot data yang sama: teks alternatif

Alternatif untuk kapak diskontinyu, yang belum ada yang disebutkan, adalah dengan hanya menampilkan tabel nilai. Dalam banyak kasus, tabel lebih mudah dipahami daripada grafik.

Harvey Motulsky
sumber
3
Grafik tersebut terlihat sangat menipu juga karena Anda tidak memiliki bilah kesalahan. Jika Anda menambahkan bilah galat, perbedaannya akan terlihat lebih kecil. Atau Anda bisa menggunakan plot kotak dan kumis yang sebagian besar menghindari masalah semacam ini.
nico
5
IMHO asal adalah masalah grafik batang, dan tidak ada hubungannya dengan logaritma. Anda dapat mencapai kesan menipu yang sama dengan sumbu linear.
cbeleites mendukung Monica
@cbeleites. Ya, Anda dapat membuat grafik batang yang menyesatkan dengan sumbu linier dengan mengubah garis dasar. Tetapi dengan sumbu linear, garis dasar alami adalah nol. Dengan sumbu logaritmik, dalam sebagian besar konteks, tidak ada garis dasar alami.
Harvey Motulsky
@ HarveyMotulsky: Saya mohon tidak setuju. Ada seluruh kelas data yang dideskripsikan dengan baik oleh sumbu log, dan yang memiliki garis dasar alami: perubahan / rasio multiplikasi. Dalam contoh Anda, mungkin sinyal yang dirawat adalah 15x sinyal kontrol. Jika asumsi itu masuk akal untuk aplikasi, Anda memiliki garis dasar "alami" untuk log. Jika tidak, mungkin transformasi lain lebih masuk akal?
cbeleites mendukung Monica
1
@cbeleites Saya setuju bahwa jika variabel adalah rasio maka 1.0 adalah garis dasar alami, kemudian menunjukkannya pada skala log masuk akal.
Harvey Motulsky
11

Beberapa ide tambahan:

(1) Anda tidak perlu membatasi diri pada transformasi logaritmik. Cari situs ini untuk tag "transformasi data", misalnya. Beberapa data cocok untuk transformasi tertentu seperti root atau logit. (Transformasi semacam itu - bahkan log - biasanya harus dihindari ketika menerbitkan grafik untuk audiens non-teknis. Di sisi lain, mereka dapat menjadi alat yang sangat baik untuk melihat pola dalam data.)

(2) Anda dapat meminjam teknik kartografi standar untuk menginset detail suatu bagan di dalam atau di samping bagan Anda. Khususnya, Anda akan memplot nilai ekstrem sendiri pada satu bagan dan semua (atau) data lainnya pada yang lain dengan rentang sumbu yang lebih terbatas, kemudian secara grafik mengatur keduanya bersama dengan indikasi (visual dan / atau tertulis) dari hubungan diantara mereka. Pikirkan peta AS di mana Alaska dan Hawaii inset pada skala yang berbeda. (Ini tidak akan bekerja dengan semua jenis grafik, tetapi bisa efektif dengan diagram batang dalam ilustrasi Anda.) [Saya melihat ini mirip dengan jawaban mbq baru-baru ini.]

(3) Anda dapat menunjukkan plot yang patah berdampingan dengan plot yang sama pada sumbu yang tidak terputus.

(4) Dalam kasus contoh bagan Anda, pilih sumbu vertikal yang sesuai (mungkin sangat membentang) dan berikan utilitas panning. [Ini lebih merupakan trik daripada teknik yang benar-benar bermanfaat, IMHO, tetapi mungkin berguna dalam beberapa kasus khusus.]

(5) Pilih skema yang berbeda untuk menampilkan data. Alih-alih bagan batang yang menggunakan panjang untuk mewakili nilai, pilih bagan di mana bidang simbol mewakili nilai, misalnya. [Jelas trade-off terlibat di sini.]

Pilihan teknik Anda kemungkinan akan tergantung pada tujuan plot: plot yang dibuat untuk eksplorasi data sering berbeda dari plot untuk khalayak umum, misalnya.

whuber
sumber
8

Mungkin itu dapat diklasifikasikan sebagai kisi, tetapi saya akan mencoba; plot semua bilah yang diskalakan ke tertinggi dalam satu panel dan letakkan panel lain yang memperlihatkan zoom pada yang lebih rendah. Saya menggunakan teknik ini sekali dalam kasus sebaran, dan hasilnya cukup bagus.


sumber
8

Saya akan memisahkan masalah sumbu log dari masalah grafik batang.


SEBUAH=lgsaya0-lgsayasaya0

Grafik batang tidak akan pernah masuk akal jika tidak ada asal yang masuk akal dan tetap yang mengambil peran kontrol (garis dasar, kosong). Tapi ini tidak ada hubungannya dengan sumbu log.
Satu-satunya penggunaan rutin yang saya miliki untuk diagram batang adalah histogram. Tetapi saya dapat membayangkan bahwa mereka melakukan dengan baik untuk menunjukkan perbedaan pada asal ini (Anda juga segera melihat apakah perbedaannya positif atau negatif). Karena bar menggambarkan suatu area, saya cenderung menganggap barchart sebagai versi area yang sangat tidak jelas di bawah kurva. Artinya, sumbu x harus memiliki makna metrik (yang mungkin terjadi dengan waktu, tetapi tidak dengan kota).

Jika saya mendapati diri saya bertanya-tanya asal apa yang digunakan untuk log dari sesuatu yang memiliki asal "alami" pada 0, saya akan mundur dan berpikir sedikit tentang apa yang sedang terjadi. Sangat sering, masalah seperti itu hanyalah indikator bahwa log bukanlah transformasi yang masuk akal di sini.

Sekarang bagan batang dengan sumbu log akan menekankan kenaikan atau penurunan yang terjadi dalam banyak. Contoh yang masuk akal yang dapat saya pikirkan saat ini semua memiliki hubungan linier dengan nilai yang menarik. Tetapi mungkin orang lain menemukan contoh yang baik.

Jadi saya pikir transformasi data harus masuk akal sehubungan dengan makna data yang ada. Ini adalah kasus dengan unit fisika-kimia yang saya sebutkan di atas (A sebanding dengan konsentrasi, dan pH, misalnya, memiliki hubungan linier dengan tegangan dalam pH-meter). Bahkan, begitu banyak kasusnya, bahwa unit log mendapatkan nama baru, dan digunakan secara linear.

Terakhir, namun tidak kalah pentingnya, saya berasal dari spektroskopi vibrasi, tempat kapak patah cukup sering digunakan. Dan saya menganggap ini menggunakan salah satu dari beberapa contoh di mana pemecahan sumbu tidak menipu. Namun, kami tidak memiliki perubahan dalam urutan besarnya. Kami hanya memiliki wilayah tidak informatif 30 - 40% dari rentang x kami: Berikut ini contoh: spektrum Untuk sampel ini, bagian antara 1800 - 2800 / cm tidak dapat berisi informasi yang berguna.
Karenanya, rentang spektral yang tidak informasi dihilangkan (yang juga menunjukkan rentang spektral yang sebenarnya kami gunakan untuk pemodelan chemometrik): spektrum bagian tidak informatif dihapus

Tetapi untuk interpretasi data, kita perlu pembacaan posisi-x yang tepat. Tetapi secara umum kita tidak membutuhkan kelipatan yang menjangkau rentang yang berbeda (yaitu ada hubungan seperti itu, tetapi sebagian besar koneksi lebih rumit. Misalnya: Sinyal pada 3050 / cm, jadi kami memiliki zat tak jenuh atau aromatik. Tetapi tidak ada sinyal yang kuat pada 1000 / cm , jadi tidak ada cincin aromatik mono, meta, atau 1,3,5-tersubtitusi ...)
Jadi lebih baik untuk menggambarkan x dengan skala yang lebih besar (sebenarnya kita sering menggunakan panduan milimeter-sheet seperti atau memberi label lokasi yang tepat). Jadi, kita mematahkan porosnya, dan mendapatkan penskalaan x yang lebih besar: spektrum - patah sumbu

Sebenarnya, ini sangat mirip dengan facetting: versi facetted
tetapi sumbu patah IMHO menekankan bahwa skala sumbu x di kedua bagian adalah sama. Yaitu Interval dalam wilayah yang diplot sama.

Untuk menekankan intensitas kecil (sumbu-y), kami menggunakan insets yang diperbesar:
masukkan deskripsi gambar di sini
[ ... Untuk detailnya, lihat wilayah diperbesar (x 20) dengan warna biru .... ]

Dan ini tentu saja mungkin dengan contoh di plot yang terhubung juga.

Cbeleites mendukung Monica
sumber
2

Dua ide yang disinggung, tetapi tidak secara eksplisit dijelaskan ketika saya melihat jawaban yang sangat baik dan komentar adalah bahwa Anda menggunakan diagram batang "dengan cara yang tidak konsisten dengan pelabelan" dan data dinormalisasi / tidak berdimensi.

Jenis plot:

Grafik gaya bintang / laba-laba / radar (tautan) (tautan) sering sangat baik untuk membandingkan beberapa hal yang berbeda di sepanjang banyak koordinat. Ada sejumlah plot yang sangat berguna yang (sayangnya) jarang terjadi dalam presentasi bisnis, kemungkinan karena kepemimpinan lebih suka menggunakan kesimpulan untuk membuat keputusan daripada menggunakan informasi untuk mendapatkan pemahaman dan kemudian menggunakan pemahaman untuk membuat keputusan. Dalam bisnis kadang-kadang sangat sulit untuk membangun konsensus sehingga pendekatan hasil-saja dapat menghasilkan hasil yang lebih tinggi dalam lingkungan konsensus-pertama, keputusan-berikutnya. Ini menginformasikan popularitas bagan batang / kolom. Harap perhatikan contoh tipe grafik lain yang bagus untuk mendapatkan pemahaman (tautan) .

Transformasi:

Jika Anda membagi nilai yang Anda bagan dengan nilai "karakteristik" maka Anda dapat mengubah penskalaan untuk meningkatkan keterbacaan tanpa kehilangan informasi. Fluid Dynamicists lebih menyukai angka tanpa dimensi karena utilitas prediktif dan elastisitasnya dalam aplikasi. Mereka melihat hal-hal seperti Teorema Buckingham Pi sebagai sumber untuk bentuk tanpa dimensi kandidat (tautan) . Populer, dan berguna, nomor tanpa dimensi termasuk Nomor Reynolds, nomor Mach, nomor Biot, nomor Grashof, Pi, nomor Raleigh, nomor Stokes, dan nomor Sherwood. (link) Anda tidak harus menjadi ahli fisika untuk menyukai angka tanpa dimensi karena mereka berguna dalam aplikasi non-fisika. Ukuran seperti kerapatan, homogenitas, sirkularitas, dan coplanaritas dapat menentukan gambar, bidang piksel, atau distribusi probabilitas multivarian. Jangan hanya mempertimbangkan untuk mengambil logaritma, atau jarak relatif dari nilai yang diketahui - Anda juga dapat mempertimbangkan membalik angka, mengambil akar kuadratnya.

Semoga berhasil. Harap beri tahu kami bagaimana hasilnya.

EngrStudent - Pasang kembali Monica
sumber
1
Sebagian besar otoritas data sangat menentang penggunaan grafik radar. Mereka sulit ditafsirkan. Alternatif yang jauh lebih baik adalah grafik koordinat paralel .
Jon Peltier
@ JonPeltier - Saya setuju, tetapi Excel tidak (pada saat saya menjawab) memiliki cara yang bersih untuk membuat grafik koordinat paralel, jadi sepertinya sesuatu yang akan sangat sulit dipahami oleh pendengarnya.
EngrStudent
1

Solusi patah-sumbu bekerja paling baik ketika ada terobosan yang jelas tepat di seluruh plot dan ordinat diberi label sehingga jaraknya jelas. Keuntungan dari hal ini adalah bahwa skala dipertahankan pada dua set nilai. Plot panel dengan skala yang berbeda mungkin tidak membawa variasi relatif dalam kelompok rendah dan tinggi. Saya memang menyukai ide plot zoom-in, yang saya programkan untuk scatterplots tetapi tidak terpikir untuk menggunakan plot bar.

pengguna4983
sumber