Saya menulis tesis PhD saya dan saya menyadari bahwa saya sangat mengandalkan plot kotak untuk membandingkan distribusi. Alternatif lain apa yang Anda sukai untuk mencapai tugas ini?
Saya juga ingin bertanya apakah Anda tahu sumber daya lain sebagai galeri R di mana saya dapat menginspirasi diri saya dengan berbagai ide tentang visualisasi data.
r
distributions
data-visualization
boxplot
relative-distribution
pedrosaurio
sumber
sumber
hist
; kepadatan merapikan,density
; QQ-plotqqplot
; plot batang dan daun (agak kuno)stem
. Selain itu, tes Kolmogorov-Smirnov mungkin merupakan pelengkap yang baikks.test
.Jawaban:
Saya akan menguraikan komentar saya, seperti yang disarankan oleh @gung. Saya juga akan memasukkan plot biola yang disarankan oleh @Alexander, untuk kelengkapannya. Beberapa alat ini dapat digunakan untuk membandingkan lebih dari dua sampel.
Saya harap ini membantu.
sumber
Setelah menjelajahi sedikit lebih banyak pada saran Anda, saya menemukan plot semacam ini untuk melengkapi jawaban @Procastinator. Ini disebut 'bee swarm' dan merupakan campuran plot kotak dengan plot biola dengan tingkat detail yang sama dengan plot pencar.
paket beeswarm R.
sumber
beanplot
.Sebuah catatan:
Anda ingin menjawab pertanyaan tentang data Anda, dan tidak membuat pertanyaan tentang metode visualisasi itu sendiri. Seringkali, membosankan lebih baik. Itu membuat perbandingan perbandingan lebih mudah untuk dipahami juga.
Sebuah jawaban:
Kebutuhan format sederhana di luar paket dasar R mungkin menjelaskan popularitas paket ggplot Hadley di R.
Akhirnya, saya menemukan bahwa menambahkan latar belakang sederhana membantu. Itulah sebabnya saya menulis "bgfun" yang dapat dipanggil oleh panel.first
sumber
alpha=0.5
plot pertama (kegeom_density()
) sehingga bagian yang tumpang tindih tidak disembunyikan.Ini a tutorial yang bagus dari blog Nathan Yau Flowing Data menggunakan data kejahatan tingkat negara bagian R dan AS. Itu menunjukkan:
Akhir-akhir ini, saya mendapati diri saya merencanakan CDF lebih dari sekadar histogram.
sumber
Ada konsep khusus untuk membandingkan distribusi, yang seharusnya lebih dikenal: distribusi relatif.
Mari kita lihat sebuah contoh. Situs web http://www.math.hope.edu/swanson/data/cellphone.txt memberikan data tentang panjang panggilan telepon terakhir siswa pria dan wanita. Mari kita nyatakan distribusi panjang panggilan telepon untuk siswa pria, dengan siswa wanita sebagai referensi.
Kami juga dapat membuat plot yang sama dengan interval kepercayaan titik-titik di sekitar kurva kepadatan relatif:
Pita kepercayaan yang luas dalam hal ini mencerminkan ukuran sampel yang kecil.
Ada buku tentang metode ini: Handcock
Kode R untuk plot ada di sini:
Untuk perubahan plot terakhir menjadi:
Perhatikan bahwa plot diproduksi dengan menggunakan estimasi kerapatan kernel, dengan tingkat kelancaran dipilih melalui gcv (validasi lintas umum).
sumber
Saya suka memperkirakan kepadatan dan plot mereka,
sumber