Informasi apa yang disediakan oleh Box Plot yang tidak dimiliki oleh Histogram?

13

Histogram memberikan pengertian yang baik tentang distribusi suatu variabel. Namun, plot kotak berupaya melakukan hal yang sama, jangan memberikan gambaran distribusi variabel ini sebaik mungkin.

Saya tidak mengerti mengapa orang menggunakan plot kotak. Histogram lebih baik dalam segala hal. Apakah ada alasan saya akan menggunakan keduanya?

Satu-satunya hal yang saya pikir yang disediakan oleh plot kotak adalah: outlier! Ini memberi tahu kita pengamatan mana yang mungkin outlier.

John
sumber
1
Apakah Histogram lebih buruk daripada representasi seluruh distribusi?
Anthony Martin
2
Bergantung pada apa yang Anda inginkan, dengan plot kotak Anda dapat memiliki beberapa nilai tepat (mis. Median, P75), yang tidak Anda miliki dengan histogram. Ini menampilkan lebih sedikit informasi, tetapi lebih sintetis. Maksud saya adalah bahwa bahkan histogram adalah penyederhanaan dan pemborosan informasi dibandingkan dengan keseluruhan distribusi. Tetapi bisa lebih mudah digunakan
Anthony Martin
2
Sudut pandang yang bertentangan tentang kegunaan histogram telah diungkapkan secara meyakinkan, dan diilustrasikan dengan baik, dalam posting yang sangat tervvotasikan di stats.stackexchange.com/a/51753 (yang dapat ditemukan dengan mencari di situs kami untuk "histogram").
whuber
3
Pikiran yang menarik - tetapi meningkatkan ukuran nampan akan mengurangi histogram menjadi sosok seperti kotak sambil mempertahankan ketergantungannya yang tidak menguntungkan pada pilihan titik potong. IMHO, manfaat sebenarnya dari plot kotak dapat paling dihargai dengan mempelajari penggunaan ringkasan N-huruf Tukey untuk analisis eksplorasi data multivarian dan mengingat bahwa ia menghitung dengan pensil dan kertas pada saat itu. Untuk visualisasi seperti "jejak skematik pengembara" ringkasan univariat lainnya dari tanggapan bersyarat, seperti histogram atau plot biola, tidak akan berfungsi.
whuber
1
Dua kegagalan (imo) histogram terjadi ketika ada beberapa sampel atau ketika kotak adalah ukuran yang salah. Kelemahan dari boxplot yang baik (dan saya berpikir variabilitas JMP ketika saya katakan) adalah multi-modalitas, dan detail yang bagus. Satu tempat di mana boxplot bersinar adalah ketika ada beberapa sampel. Saya juga suka ketika ada sejumlah variabel yang berinteraksi di tingkat yang berbeda - sehingga plot variabilitas JMP.
EngrStudent

Jawaban:

16

Fakta bahwa plot kotak memberikan lebih banyak ringkasan distribusi juga dapat dilihat sebagai keuntungan dalam kasus-kasus tertentu. Kadang-kadang ketika kita membandingkan distribusi, kita tidak peduli tentang bentuk keseluruhan, tetapi lebih pada di mana distribusi terletak berkaitan satu sama lain. Merencanakan kuantil berdampingan dapat menjadi cara yang berguna untuk melakukan ini tanpa mengganggu kita dengan detail lain yang mungkin tidak kita pedulikan.

dsaxton
sumber
1
Ini jawaban terbaik. Boxplots lebih baik untuk membandingkan distribusi daripada histogram!
kjetil b halvorsen
14

Dalam kasus univariat, kotak-plot memang memberikan beberapa informasi yang histogramnya tidak (setidaknya, tidak secara eksplisit). Artinya, biasanya memberikan median, persentil ke-25 dan ke-75, min / maks yang bukan merupakan outlier dan secara eksplisit memisahkan titik-titik yang dianggap outlier. Ini semua bisa "dimata-matai" dari histogram (dan mungkin lebih baik untuk menjadi mata-mata dalam kasus outlier).

Namun, keuntungan yang jauh lebih besar adalah membandingkan distribusi di banyak kelompok berbeda sekaligus. Dengan 10+ grup, ini adalah tugas yang melelahkan dengan histogram berdampingan, tetapi sangat mudah dengan plot kotak.

Seperti yang Anda sebutkan, plot biola (atau plot kacang) adalah alternatif yang lebih informatif. Namun, mereka membutuhkan pengetahuan statistik yang sedikit lebih banyak daripada plot kotak (yaitu jika menghadirkan kepada audiens non-statistik, itu mungkin sedikit lebih mengintimidasi) dan plot-kotak telah ada jauh lebih lama daripada penduga kepadatan kernel, karenanya popularitas mereka yang lebih besar.

Cliff AB
sumber
3
+1. Namun koreksi, plot-kotak memberikan median, bukan berarti.
Greenparker
3
Semua orang bisa benar. Petak kotak seperti yang biasa diplot menunjukkan median (saya pernah melihat ini ditolak, tetapi tidak ingat melihat contoh). Tetapi beberapa implementasi memungkinkan Anda untuk menunjukkan cara juga. Itu sering merupakan ide yang bagus.
Nick Cox
Terima kasih telah menunjukkannya. Saya terus (secara keliru) berpikir bahwa itu biasanya yang berarti, yang dapat menyebabkan beberapa plot yang sangat aneh dalam kasus-kasus ekstrim.
Cliff AB
1
akan lebih baik jika ada gambar yang cocok dengan ini untuk menunjukkan nilai perbandingan berdampingan dengan plot kotak vs histogram
Rudolf Olah
7
  1. Jika saya menunjukkan histogram dan bertanya di mana median berada, Anda mungkin akan mencari waktu ... dan kemudian Anda hanya akan mendapatkan perkiraan. Jika saya melakukan hal yang sama dengan boxplot, Anda langsung memilikinya; jika itu yang Anda minati, plot kotak jelas menang.

  2. Saya setuju bahwa plot kotak tidak seefektif uraian distribusi sampel tunggal, karena mereka menguranginya menjadi beberapa poin dan itu tidak banyak memberi tahu Anda.

    Namun, jika Anda membandingkan banyak distribusi, memiliki semua detail masing-masing mungkin lebih banyak informasi daripada yang mudah dibandingkan - Anda mungkin ingin mengurangi informasi menjadi sejumlah kecil hal untuk dibandingkan.

  3. Jika lebih banyak informasi lebih baik, ada banyak pilihan yang lebih baik daripada histogram; plot batang dan daun, misalnya, atau plot ecdf / quantile.

    Atau Anda dapat menambahkan informasi ke histogram:

histogram dengan boxplot marginal rugplot histogram dengan jitter histogram dengan stripchart

(plot dari jawaban ini )

Yang pertama - menambahkan boxplot sempit ke margin - memberi Anda manfaat apa pun yang dapat diperoleh dari kedua layar.

Glen_b -Reinstate Monica
sumber
1

Bar plot hanya menyediakan rentang frekuensi pengamatan sementara plot kotak lebih baik dalam mengatakan di mana beberapa parameter distribusi terletak, contoh rata-rata dan varian yang plot bar tidak bisa. Plot kotak dengan demikian digunakan sebagai alat komparatif yang efektif jika seseorang memiliki beberapa distribusi.

Shiv_90
sumber
Jarang boxplot menampilkan rata-rata - hampir selalu menggunakan median - dan mereka tidak pernah mewakili varian secara langsung. Perhatikan juga, bahwa jumlah ini biasanya tidak dianggap sebagai "parameter distribusi": mereka adalah statistik deskriptif untuk kumpulan data .
whuber
Tepatnya, mereka adalah alat yang bagus untuk menggambarkan distribusi tanpa terlalu banyak perhitungan. Dan mereka menampilkan median lebih banyak, dan karena dalam banyak kasus kedua ukuran bertepatan, plot kotak adalah alat yang bagus untuk memperkirakan nilai rata-rata juga.
Shiv_90
Komentar Anda tampaknya terus mengacaukan data dengan distribusi yang mendasarinya . Sangat jarang untuk rata-rata menyamakan median dalam kumpulan data apa pun. Selain itu, salah satu penggunaan boxplot yang lebih baik dan paling umum adalah untuk mengidentifikasi asimetri, yang biasanya menyiratkan perbedaan penting antara rata-rata dan median. Salah satu prinsip dasar di balik konsepsi asli boxplot adalah bahwa itu menjadi alat eksplorasi yang kuat - yang menyiratkan lebih baik tidak didasarkan pada statistik sensitif seperti rerata atau varian.
whuber