Katakanlah saya memiliki dua distribusi yang ingin saya bandingkan secara terperinci, yaitu dengan cara yang membuat bentuk, skala, dan pergeseran mudah terlihat. Salah satu cara yang baik untuk melakukan ini adalah memplot histogram untuk setiap distribusi, menempatkan mereka pada skala X yang sama, dan menumpuk satu di bawah yang lain.
Ketika melakukan ini, bagaimana seharusnya binning dilakukan? Haruskah kedua histogram menggunakan batas nampan yang sama bahkan jika satu distribusi jauh lebih tersebar daripada yang lain, seperti pada Gambar 1 di bawah ini? Haruskah binning dilakukan secara independen untuk setiap histogram sebelum zoom, seperti pada Gambar 2 di bawah ini? Apakah ada aturan praktis yang baik tentang ini?
data-visualization
histogram
pdf
binning
dsimcha
sumber
sumber
Jawaban:
Saya pikir Anda perlu menggunakan nampan yang sama. Kalau tidak, pikiran akan menipu Anda. Normal (0,2) terlihat lebih tersebar relatif terhadap Normal (0,1) di Gambar # 2 daripada di Gambar # 1. Tidak ada hubungannya dengan statistik. Sepertinya Normal (0,1) melakukan "diet".
-Ralph Winters
Titik tengah dan titik akhir histogram juga dapat mengubah persepsi dispersi. Perhatikan bahwa dalam applet ini, pilihan nampan maksimum menyiratkan kisaran> 1,5 - ~ 5 sedangkan pilihan nampan minimum menyiratkan kisaran <1 -> 5,5
http://www.stat.sc.edu/~west/javahtml/Histogram.html
sumber
Pendekatan lain adalah memplot distribusi yang berbeda pada plot yang sama dan menggunakan sesuatu seperti
alpha
parameterggplot2
untuk mengatasi masalah overplotting. Utilitas metode ini akan tergantung pada perbedaan atau kesamaan dalam distribusi Anda karena mereka akan diplot dengan tempat sampah yang sama. Alternatif lain adalah dengan menampilkan kurva kepadatan yang dihaluskan untuk setiap distribusi. Berikut adalah contoh opsi ini dan opsi lain yang dibahas di utas:sumber
Jadi ini pertanyaan tentang mempertahankan ukuran nampan yang sama atau mempertahankan jumlah nampan yang sama? Saya bisa melihat argumen untuk kedua belah pihak. Suatu penyelesaian adalah menstandarkan nilai-nilai terlebih dahulu. Maka Anda bisa mempertahankan keduanya.
sumber