Histogram memberikan pengertian yang baik tentang distribusi suatu variabel. Namun, plot kotak berupaya melakukan hal yang sama, jangan memberikan gambaran distribusi variabel ini sebaik mungkin.
Saya tidak mengerti mengapa orang menggunakan plot kotak. Histogram lebih baik dalam segala hal. Apakah ada alasan saya akan menggunakan keduanya?
Satu-satunya hal yang saya pikir yang disediakan oleh plot kotak adalah: outlier! Ini memberi tahu kita pengamatan mana yang mungkin outlier.
Jawaban:
Fakta bahwa plot kotak memberikan lebih banyak ringkasan distribusi juga dapat dilihat sebagai keuntungan dalam kasus-kasus tertentu. Kadang-kadang ketika kita membandingkan distribusi, kita tidak peduli tentang bentuk keseluruhan, tetapi lebih pada di mana distribusi terletak berkaitan satu sama lain. Merencanakan kuantil berdampingan dapat menjadi cara yang berguna untuk melakukan ini tanpa mengganggu kita dengan detail lain yang mungkin tidak kita pedulikan.
sumber
Dalam kasus univariat, kotak-plot memang memberikan beberapa informasi yang histogramnya tidak (setidaknya, tidak secara eksplisit). Artinya, biasanya memberikan median, persentil ke-25 dan ke-75, min / maks yang bukan merupakan outlier dan secara eksplisit memisahkan titik-titik yang dianggap outlier. Ini semua bisa "dimata-matai" dari histogram (dan mungkin lebih baik untuk menjadi mata-mata dalam kasus outlier).
Namun, keuntungan yang jauh lebih besar adalah membandingkan distribusi di banyak kelompok berbeda sekaligus. Dengan 10+ grup, ini adalah tugas yang melelahkan dengan histogram berdampingan, tetapi sangat mudah dengan plot kotak.
Seperti yang Anda sebutkan, plot biola (atau plot kacang) adalah alternatif yang lebih informatif. Namun, mereka membutuhkan pengetahuan statistik yang sedikit lebih banyak daripada plot kotak (yaitu jika menghadirkan kepada audiens non-statistik, itu mungkin sedikit lebih mengintimidasi) dan plot-kotak telah ada jauh lebih lama daripada penduga kepadatan kernel, karenanya popularitas mereka yang lebih besar.
sumber
Jika saya menunjukkan histogram dan bertanya di mana median berada, Anda mungkin akan mencari waktu ... dan kemudian Anda hanya akan mendapatkan perkiraan. Jika saya melakukan hal yang sama dengan boxplot, Anda langsung memilikinya; jika itu yang Anda minati, plot kotak jelas menang.
Saya setuju bahwa plot kotak tidak seefektif uraian distribusi sampel tunggal, karena mereka menguranginya menjadi beberapa poin dan itu tidak banyak memberi tahu Anda.
Namun, jika Anda membandingkan banyak distribusi, memiliki semua detail masing-masing mungkin lebih banyak informasi daripada yang mudah dibandingkan - Anda mungkin ingin mengurangi informasi menjadi sejumlah kecil hal untuk dibandingkan.
Jika lebih banyak informasi lebih baik, ada banyak pilihan yang lebih baik daripada histogram; plot batang dan daun, misalnya, atau plot ecdf / quantile.
Atau Anda dapat menambahkan informasi ke histogram:
(plot dari jawaban ini )
Yang pertama - menambahkan boxplot sempit ke margin - memberi Anda manfaat apa pun yang dapat diperoleh dari kedua layar.
sumber
Bar plot hanya menyediakan rentang frekuensi pengamatan sementara plot kotak lebih baik dalam mengatakan di mana beberapa parameter distribusi terletak, contoh rata-rata dan varian yang plot bar tidak bisa. Plot kotak dengan demikian digunakan sebagai alat komparatif yang efektif jika seseorang memiliki beberapa distribusi.
sumber