Aturan “Kapan menggunakan boxplot dan kapan barplot” (praktis?)

14

Baik plot kotak-dan-kumis dan grafik batang merupakan grafik yang sesuai untuk ANOVA menurut The R Book (Crawley, 2013), tetapi mana yang lebih tepat ? Saya kira itu tergantung situasi ... adakah yang bisa membantu saya?

Ladislav Naďo
sumber
5
" Meskipun satu masalah dapat diselesaikan dengan beberapa tes alternatif - selalu ada hanya satu tes yang paling tepat untuk digunakan " - Saya tidak setuju dengan kalimat itu; Saya tidak berpikir itu selalu benar.
Glen_b -Reinstate Monica
5
Saya setuju dengan @Glen_b di sini dan menyarankan bahwa bahkan kata-kata ini merindukan titik kunci. Mengidentifikasi tes yang paling tepat tergantung minimal pada mengetahui proses menghasilkan tepat untuk data, yang, harus kita katakan, tidak biasa. Lebih umum bahwa ada beberapa tes yang mungkin dengan kelebihan dan kekurangan yang berbeda.
Nick Cox
1
Saya tidak berpikir bahwa saya bahkan akan menyebutkan tes (hipotesis atau signifikansi) dalam karakterisasi singkat pemikiran statistik yang baik ... Namun saya pikir ini adalah masalah sampingan. Pertanyaan Anda cukup jelas tanpanya.
Nick Cox

Jawaban:

18

Khusus untuk ilustrasi grafis ANOVA:

  • Bagan kotak atau bagan batang jauh lebih baik daripada tidak sama sekali secara grafis untuk ANOVA, tetapi seperti yang umumnya diplotkan, keduanya tidak langsung atau tidak lengkap sebagai ringkasan grafis.

  • ANOVA adalah tentang perbandingan cara dalam konteks variasi satu atau lebih jenis, sehingga grafik yang paling tepat akan menunjukkan, minimal, berarti serta data mentah. Penyimpangan standar kelompok (SD) atau jumlah terkait tidak akan membahayakan.

  • Meskipun beberapa varietas plot kotak menunjukkan rata-rata serta median, jenis standar menunjukkan median, kuartil, dan beberapa informasi di bagian ujung distribusi. Varian yang paling umum tampaknya adalah di mana titik data individual ditunjukkan jika dan hanya jika mereka terletak lebih dari 1,5 IQR dari kuartil yang lebih dekat. Yaitu: rentang interkuartil IQR kuartil atas kuartil bawah, jadi plot sebagai nilai poin lebih besar dari kuartil atas 1,5 IQR atau kurang dari kuartil rendah=+1,5 IQR. Konvensi semacam itu dapat membantu menunjukkan outlier kasar yang mungkin bermasalah untuk ANOVA, tetapi median atau kuartil tidak memainkan bagian apa pun dalam ANOVA dan apakah median perkiraan rata-rata adalah suatu titik untuk diperiksa, tidak diasumsikan. Secara umum, analis data yang berpengalaman mengambil misalkan ditandai outlier dan / atau asimetri distribusi sebagai tanda masalah yang perlu tindakan, seperti transformasi data atau kebutuhan untuk model linier umum dengan fungsi tautan non-identitas. Namun demikian, mengejutkan bahwa berapa banyak buku teks dan akun lainnya menunjukkan plot kotak ketika ANOVA disajikan tetapi tidak menyebutkan gajah tidak di dalam ruangan, cara yang tidak diplot.

  • Sebaliknya, jenis bagan batang yang paling umum dalam konteks ini merangkum data dengan cara dan SD atau kesalahan standar, tetapi menghilangkan tampilan setiap titik data individu sebaliknya. Jadi, misalnya, outlier atau asimetri yang ditandai hanya dapat disimpulkan dari out-of-line atau peningkatan variabilitas dalam kelompok individu.

Secara umum, ada banyak saran yang jenis grafik mana yang bermanfaat tetapi sedikit konsensus tentang mana yang terbaik. Saya menyarankan sebagai kriteria yang ditunjukkan grafik yang bagus

  • Pola variasi lengkap dalam data, setidaknya sebagai latar belakang atau konteks

  • Ringkasan data yang relevan, khususnya yang relevan dengan model yang dihibur atau deskriptor yang dipertimbangkan

  • Indikasi kemungkinan masalah dengan data yang meragukan asumsi yang dibuat.

Ada beberapa desain yang membantu dengan ANOVA, seperti plot titik atau strip dengan sarana tambahan dan SES.

Makalah ini oleh John Tukey menjelaskan perbedaan antara grafik propaganda dan grafik analitik yang relevan di sini. Terlalu banyak ilustrasi grafis ANOVA adalah grafik propaganda (lihat! Kelompok-kelompok itu sangat berbeda) tanpa banyak analisis (dan apa lagi yang bisa kita pelajari tentang data atau keterbatasan teknik dalam aplikasi ini?).

Nick Cox
sumber
Jadi bagaimana dengan plot biola dengan, idealnya dengan mean, sd dan outlier ditarik?
ziggystar
Petak biola dapat membantu. Secara pribadi saya lebih suka sesuatu yang lebih dekat dengan data mentah, sehingga saya bisa melihat modalitas dan granularitas juga.
Nick Cox
8

Tolong jangan bingung antara grafik batang (satu balok digunakan untuk menunjukkan setiap jumlah bunga) dan plot dinamit (satu balok menunjukkan rata-rata setiap kelompok, ditambah balok kesalahan). Plot dinamit TIDAK PERNAH diterima karena menyembunyikan distribusi data tanpa alasan sama sekali.

Ya saya menyadari bahwa ini adalah tipe plot yang paling umum. Ini adalah masalah besar yang mencerminkan kepentingan (rendah) yang peneliti tempat pada bentuk data mereka. Jika Anda seorang detektif yang mencari senjata pembunuh, apakah lebih baik jika seorang saksi memberi tahu Anda 1) hanya lokasi dan ukuran senjata itu? atau 2) lokasi, ukuran, dan bentuk?

http://biostat.mc.vanderbilt.edu/wiki/pub/Main/TatsukiRcode/Poster3.pdf

Marah
sumber
Apakah Anda memiliki sumber daya lain tentang mengapa plot dinamit tidak ideal?
mguzmann
@mguzmann Maaf, saya tidak. Saya juga bertanya-tanya siapa yang datang dengan ide, adopsi dari waktu ke waktu, dll dan tidak dapat menemukan apa pun tentang itu. Saya membayangkan itu berevolusi dari tabel pelaporan +/- kesalahan di hari-hari sebelum komputer. Saya telah melihat makalah dari tahun 1930-an yang berhasil menerbitkan tabel dari dataset lengkap sehingga saya tidak yakin bahwa praktik itu benar-benar dibenarkan juga. Misalnya: Hedrich AW. Perkiraan bulanan populasi anak "rentan" terhadap campak, 1900–1931, Baltimore, Maryland. Am J Hyg 1933; 17: 613-636.
Livid