Perlihatkan rata-rata sebagai ganti median di boxplot [ditutup]

15

Saat memplot boxplot dengan python matplotblib, garis di tengah plot adalah median distribusi.

Apakah ada kemungkinan untuk memiliki garis rata-rata sebagai gantinya. Atau memplotnya di sebelahnya dengan gaya yang berbeda.

Juga, karena garis median adalah median, apakah itu akan membingungkan pembaca saya jika saya menjadikannya rata-rata (tentu saja saya akan menambahkan catatan apa garis tengahnya)?

Peter Smit
sumber

Jawaban:

25

Kode ini membuat plot kotak kemudian menempatkan lingkaran yang menandai rata-rata untuk setiap kotak. Anda dapat menggunakan simbol yang berbeda dengan menentukan argumen penanda dalam panggilan ke scatter.

import numpy as np
import pylab

# 3 boxes
data = [[np.random.rand(100)] for i in range(3)]
pylab.boxplot(data)

# mark the mean    
means = [np.mean(x) for x in data]
pylab.scatter([1, 2, 3], means)

teks alternatif

ars
sumber
3
Lihat stackoverflow.com/questions/2492947/… untuk solusi menggunakan R
James
1
@ James: Saya tidak mencoba menjadi brengsek dan memilih Anda, tetapi komentar Anda menimbulkan pertanyaan dari saya. Mengapa setiap kali ada orang di forum ini secara eksplisit bertanya bagaimana melakukan sesuatu menggunakan bahasa non-R (karena R adalah standar de facto ), seseorang selalu menyarankan menggunakan R? Saya tidak menemukan yang sebaliknya. Pemrogram SAS biasanya tidak mengomentari "Bagaimana saya melakukan X dalam R?" pertanyaan dengan "Ini adalah bagaimana melakukannya di SAS ...". Saya tahu orang-orang menyukai R (dan saya juga), tetapi ...
Josh Hemann
20

Untuk menjawab pertanyaan kedua Anda: Ya, saya pikir itu akan membingungkan untuk menempatkan garis pada mean daripada median. Aturan yang tepat mengendalikan panjang 'kumis' (jika ada) dan perawatan outlier bervariasi, tetapi semua orang tetap menggunakan kotak Tukey sebagai menampilkan median dan kuartil atas dan bawah. Untuk distribusi dengan kemiringan sangat tinggi, mean bisa berada di luar kotak, yang akan terlihat sangat aneh. Penggunaan umum adalah bahwa median sesuai dengan rentang interkuartil, sedangkan rata-rata berlaku dengan standar deviasi (atau kesalahan standar rata-rata jika Anda tertarik pada inferensi daripada deskripsi data). Jika Anda ingin menunjukkan mean secara visual, saya akan menggunakan simbol yang berbeda untuk menampilkannya untuk menghindari kebingungan.

onestop
sumber