Apa saja alternatif untuk boxplot?

20

Saya sedang mengerjakan pembuatan situs web, yang menampilkan data sensus untuk pengguna yang dipilih Poligon & ingin menampilkan distribusi berbagai parameter secara grafis (satu grafik per parameter).

Data biasanya memiliki sifat-sifat berikut:

  1. Ukuran sampel cenderung besar (misalnya sekitar 10.000 titik data)
  2. Kisaran nilai cenderung quire besar (misalnya, populasi minimum bisa kurang dari 100 & maksimum bisa sekitar 500.000)
  3. q1 biasanya mendekati minimum (katakanlah 200) sedangkan q2 & q3 akan berada dalam 10.000
  4. Itu tidak terlihat seperti distribusi normal

Saya bukan ahli statistik dan karenanya uraian saya mungkin tidak jelas.

Saya ingin menunjukkan distribusi ini pada grafik, yang akan dilihat oleh warga (orang awam, jika Anda suka).

Saya lebih suka menggunakan histogram, tetapi tidak mungkin karena rentang nilai yang besar, karena yang membuat tempat sampah tidak benar-benar mudah & lurus ke depan.

Dari sedikit yang saya ketahui tentang statistik, plot kotak adalah apa yang sering digunakan untuk menunjukkan data seperti ini, tetapi saya merasa bahwa bagi orang awam, menguraikan plot Box tidak mudah.

Apa opsi saya untuk menunjukkan data ini dengan cara yang mudah dimengerti?

Devdatta Tengshe
sumber
apa yang sebenarnya Anda tampilkan? Tidak jelas bagi saya data seperti apa yang diwakili oleh satu titik data Anda.
mpiktas
1
Bagaimana dengan plot kepadatan kernel? statmethods.net/graphs/density.html
Roman Luštrik
@mpiktas: Data saya adalah data Sensus untuk desa. Situs web saya akan memungkinkan pengguna untuk memilih area pada peta, dan kemudian akan menemukan semua desa di area itu. Data sensus untuk sebuah desa terdiri dari berbagai nilai seperti: Populasi Pria, Populasi wanita, pendapatan rumah tangga rata-rata dll untuk desa itu. Saya berharap dapat menunjukkan distribusi data untuk nilai tertentu (misalnya: Total Populasi) untuk semua desa yang termasuk dalam area yang dipilih pengguna.
Devdatta Tengshe

Jawaban:

13

Boxplot tidak terlalu rumit. Bagaimanapun, Anda hanya perlu menghitung tiga kuartil , dan min dan maks yang menentukan rentang; kehalusan muncul ketika kita ingin menggambar kumis dan berbagai metode telah diusulkan. Misalnya, dalam nilai boxplot Tukey di luar 1,5 kali inter-kuartil dari kuartil pertama atau ketiga akan dianggap sebagai outlier dan ditampilkan sebagai poin sederhana. Lihat juga Metode untuk Menyajikan Informasi Statistik: Plot Kotak untuk tinjauan umum yang baik , oleh Kristin Potter. Perangkat lunak R mengimplementasikan aturan yang sedikit berbeda tetapi kode sumber tersedia jika Anda ingin mempelajarinya (lihat boxplot()danboxplot.stats()fungsi). Namun, itu tidak terlalu berguna ketika minat dalam mengidentifikasi outlier dari distribusi yang sangat miring (tapi lihat, Plot box yang disesuaikan untuk distribusi miring , oleh Hubert dan Vandervieren, CSDA 2008 52 (12)).

Sejauh menyangkut visualisasi online, saya akan menyarankan untuk melihat Protovis yang merupakan toolbox js bebas plugin untuk tampilan web interaktif. The contoh halaman memiliki sangat ilustrasi dari apa yang dapat dicapai dengan itu, sangat sedikit garis.

chl
sumber
3
Saya bekerja dalam penelitian biologi. Saya kenal beberapa kolega (maksud saya, orang-orang dengan gelar PhD) yang tidak bisa benar-benar memahami boxplots. Saya tidak akan menggunakannya untuk menargetkan audiens umum.
nico
1
@nico Itu poin yang adil. Tapi, ini bukan alasan untuk tidak menggunakan ringkasan grafis yang efisien. Ilustrasi skematis tentang apa yang sebenarnya dilakukan boxplot dapat membantu pembaca.
chl
1
itu benar-benar tergantung pada apa target audiens dan apa tujuan dari situs tersebut. Menjelaskan boxplots pasti akan membantu, tetapi masih, beberapa orang banyak berjuang dengan konsep distribusi.
nico
@nico Ya, saya setuju. Meskipun boxplot tidak disebutkan dalam A Tour through the Visualization Zoo - tetapi ini untuk set data yang besar dan kompleks, saya hanya menyukainya dan saya menyesal melihat bahwa itu tidak banyak digunakan dalam ilmu eksperimental. Menumpangkan data mentah adalah cara untuk membantu pembaca memvisualisasikan distribusi.
chl
1
Aku tahu! Saya selalu mencoba untuk "mengubah" rekan-rekan saya menjadi plot-box, paling tidak dalam hal menulis makalah, membuat presentasi, dll., Tetapi terkadang demikian!
nico
11

Anda mungkin juga ingin melihat beanplots .

teks alternatif

[ Sumber ]

Diimplementasikan dalam paket R oleh Peter Kampstra.

Radek
sumber
7

Saya sarankan Anda bertahan dengan histogram. Mereka jauh lebih dipahami daripada alternatif. Gunakan skala log untuk mengatasi rentang nilai yang besar. Berikut adalah contoh yang saya buat dalam beberapa menit di Stata: Histogram dengan skala log pada sumbu nilai
Saya akui bahwa label numerik x-axis tidak sepenuhnya mudah atau otomatis, tetapi saat Anda membangun situs web, saya yakin keterampilan pemrograman Anda sesuai dengan yang diinginkan. tantangan!

onestop
sumber
Poin bagus. Histogram (atau plot kerapatan dengan percobaan dengan bandwidth) adalah solusi hebat di sini.
suncoolsu
Anda sepenuhnya benar, bahwa Histogram adalah cara yang paling dimengerti untuk menunjukkan distribusi. Saya akan mencoba membuat histogram dengan kedua sumbu dalam skala log.
Devdatta Tengshe
2
Saya hanya menyarankan menggunakan skala log untuk sumbu x. Saya tidak berpikir skala log untuk sumbu frekuensi akan menjadi ide yang baik, karena daerah teduh dari setiap batang histogram tidak akan sebanding dengan jumlah pengamatan.
onestop
5

Berikut ini adalah fungsi matlab untuk memplot banyak histogram berdampingan dalam 2D ​​sebagai alternatif untuk plot-kotak. Lihat gambar di atas. Dan ini satu lagi

Strip kepadatan adalah alternatif lain untuk plot-kotak. Ini adalah strip monokrom teduh yang kegelapan pada suatu titik sebanding dengan probabilitas probabilitas kuantitas pada titik itu. Ini adalah implementasi R dari strip kepadatan

George Dontas
sumber
1
(+1) Lupa tentang itu. Mungkin berguna.
chl
1
Baru saja menemukan versi PDF tanpa tampilan dari Menampilkan Ketidakpastian Dengan Shading .
chl
@ chl: tautan itu tidak berfungsi
kjetil b halvorsen
4

x%x=0,10,20,...,100

mpiktas
sumber
3
Mengutip teman saya: jika Anda ingin "menyembunyikan" sesuatu di kertas, letakkan di dalam teks dan bukan di dalam gambar. Jika Anda ingin memastikan tidak ada yang pernah membacanya, letakkan di meja! ;) Hanya bercanda tentu saja, tetapi memiliki situs web dengan peta interaktif bagi pengguna untuk mengklik dll. Semua itu untuk mendapatkan tabel ... baik itu akan mengecewakan!
nico
@nico, ya tapi kadang-kadang tabel jauh lebih informatif daripada grafik. Saya misalnya lebih suka tabel daripada grafik yang buruk. Dalam hal ini tabel masih dapat diwakili oleh grafik, dan saya menyarankan kuantil karena mereka tidak memiliki masalah dengan outlier.
mpiktas
Itulah yang saat ini saya lakukan (Menampilkan desil pada grafik), tetapi setelah menunjukkannya kepada beberapa audiens target kami, kami menerima umpan balik, bahwa grafik itu tidak mudah dimengerti.
Devdatta Tengshe
2

Jika Anda menargetkan populasi umum (yaitu audiens yang tidak mengerti statistik), Anda harus fokus pada eye-candy daripada akurasi statistik.

Lupakan plot-plot box, apalagi plot-plot biola (saya pribadi merasa sangat sulit untuk membaca)! Jika Anda akan bertanya pada rata-rata pria jalanan tentang jumlah apa, Anda sebagian besar akan mendapatkan keheningan bermata lebar ...

Anda harus menggunakan barplot, diagram gelembung, mungkin beberapa diagram lingkaran (brrrr). Lupakan tentang bar kesalahan (meskipun saya akan meletakkan SD di tempat teks yang berlaku).

Gunakan warna, bentuk, garis tebal, 3D. Anda harus membuat setiap bagan unik dan langsung mudah dipahami, bahkan tanpa harus membaca semua legenda / sumbu dll. Manfaatkan peta dengan cerdas dengan mewarnai mereka.

Informasi yang indah adalah sumber yang sangat bagus untuk mendapatkan ide. Lihat grafik ini misalnya: Kafein dan Kalori : siapa pun dapat memahaminya, dan enak dipandang.

Dan, tentu saja, lihat karya Edward Tufte.

nico
sumber
Catatan saya tidak menyarankan dia menggunakan plot biola untuk aplikasinya, tetapi histogram dengan tempat logaritma spasi. Petak biola adalah jawaban untuk pertanyaan dalam judul (yang agak berbeda dengan pertanyaan dalam pos itu sendiri).
Dikran Marsupial
3
Anda akan mungkin seperti Banyak Mata , DataViz , datavisualization.ch , dan Ideas2evidence , untuk beberapa nama.
chl
2

Saya lebih suka plot biola sendiri, karena ini memberikan gambaran tentang bentuk distribusinya. Namun jika rentang nilai besar adalah masalahnya, maka mungkin akan lebih baik untuk memplot log data daripada nilai mentah, yang kemudian akan membuat memilih ukuran kotak untuk histogram dll. Karena tampilan untuk awam, jangan dapat menyebutkan log dan tandai sumbu 10, 100, 1000, 10000, 100000, 1000000 dll.

Dikran Marsupial
sumber