Cara terbaik untuk meletakkan dua histogram pada skala yang sama?

14

Katakanlah saya memiliki dua distribusi yang ingin saya bandingkan secara terperinci, yaitu dengan cara yang membuat bentuk, skala, dan pergeseran mudah terlihat. Salah satu cara yang baik untuk melakukan ini adalah memplot histogram untuk setiap distribusi, menempatkan mereka pada skala X yang sama, dan menumpuk satu di bawah yang lain.

Ketika melakukan ini, bagaimana seharusnya binning dilakukan? Haruskah kedua histogram menggunakan batas nampan yang sama bahkan jika satu distribusi jauh lebih tersebar daripada yang lain, seperti pada Gambar 1 di bawah ini? Haruskah binning dilakukan secara independen untuk setiap histogram sebelum zoom, seperti pada Gambar 2 di bawah ini? Apakah ada aturan praktis yang baik tentang ini?

Gambar 1 Gambar 2

dsimcha
sumber
5
Plot QQ adalah alat yang jauh lebih baik untuk perbandingan distribusi empiris yang tajam. Menggunakan mereka menghindari masalah binning sama sekali.
whuber
3
@whuber: Setuju, jika Anda hanya ingin visualisasi sensitif apakah dua distribusi berbeda, tetapi pendekatan histogram adalah IMHO lebih baik jika Anda ingin wawasan terperinci tentang bagaimana mereka berbeda.
dsimcha
3
@dsimcha Pengalaman saya sebaliknya. Plot QQ jelas menunjukkan (secara kuantitatif) perbedaan skala, lokasi, dan bentuk, terutama dalam ketebalan ekor. (Coba bandingkan dua SD langsung dari histogram, misalnya: tidak mungkin ketika mereka nilainya dekat. Pada plot QQ Anda hanya perlu membandingkan lereng, yang cepat dan relatif akurat.) Plot QQ lebih rendah daripada histogram dalam hal memilih mode, tetapi tidak ada histogram yang baik pada saat itu sampai jumlah data yang layak telah dikumpulkan dan pilihan bin yang baik telah dibuat.
whuber
1
Saya setuju bahwa plot QQ adalah solusi terbaik, meskipun mereka tidak menghindari masalah bin, mereka hanya memaksa Anda untuk menempatkan tempat sampah di tempat-tempat tertentu (kuantil :-) Di sisi lain ini tidak berarti bahwa tempat sampah tidak , memang seharusnya tidak dibagi oleh dua distribusi.
conjugateprior
1
@dsimcha, saya pikir sesuatu seperti plot usia / gender bisa menjadi gambar yang berguna. Pokoknya mengapa menggunakan histogram untuk ini? Cukup plot fungsi distribusi secara langsung. Namun, jika Anda bermain dengan hal-hal empiris, maka saran plot QQ adalah pilihan terbaik.
Dmitrij Celov

Jawaban:

7

Saya pikir Anda perlu menggunakan nampan yang sama. Kalau tidak, pikiran akan menipu Anda. Normal (0,2) terlihat lebih tersebar relatif terhadap Normal (0,1) di Gambar # 2 daripada di Gambar # 1. Tidak ada hubungannya dengan statistik. Sepertinya Normal (0,1) melakukan "diet".

-Ralph Winters

Titik tengah dan titik akhir histogram juga dapat mengubah persepsi dispersi. Perhatikan bahwa dalam applet ini, pilihan nampan maksimum menyiratkan kisaran> 1,5 - ~ 5 sedangkan pilihan nampan minimum menyiratkan kisaran <1 -> 5,5

http://www.stat.sc.edu/~west/javahtml/Histogram.html

Ralph Winters
sumber
1
Bisakah Anda memberikan beberapa pembenaran teoretis untuk pendapat ini?
whuber
Tidak, hanya pendapat saja. Tetapi jika saya punya waktu, saya akan memulai penelitian saya dari dunia kemasan ritel (persepsi tubuh kurus), dan menggabungkan beberapa karya Tufte.
Ralph Winters
@whuber: sebagian besar berkaitan dengan cara otak kita memproses informasi. Ketika ada tempat sampah yang lebih kecil, pikiran kita juga "menyusutkan" batas kurva. Coba terbalikkan ukuran nampan dalam ara. # 2 untuk melihat apa yang saya maksud.
nico
@nico Ya, ada elemen persepsi terhadap pertanyaan. Tetapi di garis depan adalah masalah statistik karena memiliki pengaruh yang jauh lebih besar: nampan kecil ==> lebih banyak variabilitas sampel dalam nampan ==> lebih banyak "ragged" histogram ==> kesulitan yang lebih besar dalam perbandingan. Jadi, IMO, setiap jawaban yang berharga harus mengemukakan dukungan dari teori statistik (minimal).
whuber
@whuber: Saya merujuk pada fakta bahwa distribusi terlihat berbeda tersebar di dua gambar. Tentu saja bagaimana penampilan mereka tidak ada hubungannya dengan seberapa banyak mereka benar-benar tersebar.
nico
2

Pendekatan lain adalah memplot distribusi yang berbeda pada plot yang sama dan menggunakan sesuatu seperti alphaparameter ggplot2untuk mengatasi masalah overplotting. Utilitas metode ini akan tergantung pada perbedaan atau kesamaan dalam distribusi Anda karena mereka akan diplot dengan tempat sampah yang sama. Alternatif lain adalah dengan menampilkan kurva kepadatan yang dihaluskan untuk setiap distribusi. Berikut adalah contoh opsi ini dan opsi lain yang dibahas di utas:

library(ggplot2)

df <- melt(
    data.frame( 
        x = rnorm(1000)
        , y = rnorm(1000, 0, 2)
    )
)


ggplot(data = df) + 
#   geom_bar(aes(x = value, fill = variable), alpha = 1/2)
#   geom_bar(aes(x = value)) + facet_grid(variable ~ .)
#   geom_density(aes(x = value, colour = variable))
#   stat_qq(aes(sample = value, colour = variable))
Mengejar
sumber
Bukankah ini hanya mendorong pertanyaan ke masalah pemilihan lebar kernel yang sesuai dan apakah (dan bagaimana) seseorang dapat membandingkan dua smooth menggunakan lebar kernel yang berbeda?
whuber
1
@whuber - titik valid. Saya tidak mencoba untuk menyarankan kurva kepadatan yang menjadi ujung semua metode untuk digunakan, hanya menawarkan alternatif lain. Jelas dari pos ini bahwa ada pro dan kontra untuk pendekatan apa pun, jadi menawarkan ini sebagai alternatif lain yang layak untuk dimasukkan ke dalam campuran.
Chase
Sehubungan dengan itu saya memilih jawaban Anda, +1.
whuber
0

Jadi ini pertanyaan tentang mempertahankan ukuran nampan yang sama atau mempertahankan jumlah nampan yang sama? Saya bisa melihat argumen untuk kedua belah pihak. Suatu penyelesaian adalah menstandarkan nilai-nilai terlebih dahulu. Maka Anda bisa mempertahankan keduanya.

xan
sumber
Itu akan bekerja ketika dua ukuran sampel serupa. Tetapi ketika mereka berbeda, ukuran bin umum (bahkan dalam unit standar) dapat sesuai untuk satu atau histogram lainnya, tetapi tidak untuk keduanya. Bagaimana Anda menangani kasus itu?
whuber
Mungkin kita sedang memikirkan arti berbeda dari standardisasi. Maksud saya yang saya tautkan di mana, misalnya, jika satu populasi memiliki stdev 5 dan yang lainnya memiliki stdev 10, setelah standardisasi mereka berdua akan memiliki stdev dari 1. Mereka kemudian dapat lebih adil dibandingkan dengan yang sama ukuran nampan karena setiap nampan memiliki jumlah piksel dan data yang sebanding. Atau mungkin Anda mendapatkan masalah yang lebih besar bahwa "ukuran bin yang tepat" adalah sedikit seni hitam dan unik untuk setiap kumpulan data ...
xan
Kami memiliki makna yang sama yaitu "standar." Memilih ukuran nampan membutuhkan penilaian dan pengetahuan tentang konteks, tetapi sulit untuk menggambarkannya sebagai "seni hitam": lihat, misalnya, stats.stackexchange.com/q/798/919 .
whuber