Saya sedang mengerjakan pembuatan situs web, yang menampilkan data sensus untuk pengguna yang dipilih Poligon & ingin menampilkan distribusi berbagai parameter secara grafis (satu grafik per parameter).
Data biasanya memiliki sifat-sifat berikut:
- Ukuran sampel cenderung besar (misalnya sekitar 10.000 titik data)
- Kisaran nilai cenderung quire besar (misalnya, populasi minimum bisa kurang dari 100 & maksimum bisa sekitar 500.000)
- q1 biasanya mendekati minimum (katakanlah 200) sedangkan q2 & q3 akan berada dalam 10.000
- Itu tidak terlihat seperti distribusi normal
Saya bukan ahli statistik dan karenanya uraian saya mungkin tidak jelas.
Saya ingin menunjukkan distribusi ini pada grafik, yang akan dilihat oleh warga (orang awam, jika Anda suka).
Saya lebih suka menggunakan histogram, tetapi tidak mungkin karena rentang nilai yang besar, karena yang membuat tempat sampah tidak benar-benar mudah & lurus ke depan.
Dari sedikit yang saya ketahui tentang statistik, plot kotak adalah apa yang sering digunakan untuk menunjukkan data seperti ini, tetapi saya merasa bahwa bagi orang awam, menguraikan plot Box tidak mudah.
Apa opsi saya untuk menunjukkan data ini dengan cara yang mudah dimengerti?
sumber
Jawaban:
Boxplot tidak terlalu rumit. Bagaimanapun, Anda hanya perlu menghitung tiga kuartil , dan min dan maks yang menentukan rentang; kehalusan muncul ketika kita ingin menggambar kumis dan berbagai metode telah diusulkan. Misalnya, dalam nilai boxplot Tukey di luar 1,5 kali inter-kuartil dari kuartil pertama atau ketiga akan dianggap sebagai outlier dan ditampilkan sebagai poin sederhana. Lihat juga Metode untuk Menyajikan Informasi Statistik: Plot Kotak untuk tinjauan umum yang baik , oleh Kristin Potter. Perangkat lunak R mengimplementasikan aturan yang sedikit berbeda tetapi kode sumber tersedia jika Anda ingin mempelajarinya (lihat
boxplot()
danboxplot.stats()
fungsi). Namun, itu tidak terlalu berguna ketika minat dalam mengidentifikasi outlier dari distribusi yang sangat miring (tapi lihat, Plot box yang disesuaikan untuk distribusi miring , oleh Hubert dan Vandervieren, CSDA 2008 52 (12)).Sejauh menyangkut visualisasi online, saya akan menyarankan untuk melihat Protovis yang merupakan toolbox js bebas plugin untuk tampilan web interaktif. The contoh halaman memiliki sangat ilustrasi dari apa yang dapat dicapai dengan itu, sangat sedikit garis.
sumber
Anda mungkin juga ingin melihat beanplots .
[ Sumber ]
Diimplementasikan dalam paket R oleh Peter Kampstra.
sumber
Saya sarankan Anda bertahan dengan histogram. Mereka jauh lebih dipahami daripada alternatif. Gunakan skala log untuk mengatasi rentang nilai yang besar. Berikut adalah contoh yang saya buat dalam beberapa menit di Stata:
Saya akui bahwa label numerik x-axis tidak sepenuhnya mudah atau otomatis, tetapi saat Anda membangun situs web, saya yakin keterampilan pemrograman Anda sesuai dengan yang diinginkan. tantangan!
sumber
Berikut ini adalah fungsi matlab untuk memplot banyak histogram berdampingan dalam 2D sebagai alternatif untuk plot-kotak. Lihat gambar di atas. Dan ini satu lagi
Strip kepadatan adalah alternatif lain untuk plot-kotak. Ini adalah strip monokrom teduh yang kegelapan pada suatu titik sebanding dengan probabilitas probabilitas kuantitas pada titik itu. Ini adalah implementasi R dari strip kepadatan
sumber
sumber
Jika Anda menargetkan populasi umum (yaitu audiens yang tidak mengerti statistik), Anda harus fokus pada eye-candy daripada akurasi statistik.
Lupakan plot-plot box, apalagi plot-plot biola (saya pribadi merasa sangat sulit untuk membaca)! Jika Anda akan bertanya pada rata-rata pria jalanan tentang jumlah apa, Anda sebagian besar akan mendapatkan keheningan bermata lebar ...
Anda harus menggunakan barplot, diagram gelembung, mungkin beberapa diagram lingkaran (brrrr). Lupakan tentang bar kesalahan (meskipun saya akan meletakkan SD di tempat teks yang berlaku).
Gunakan warna, bentuk, garis tebal, 3D. Anda harus membuat setiap bagan unik dan langsung mudah dipahami, bahkan tanpa harus membaca semua legenda / sumbu dll. Manfaatkan peta dengan cerdas dengan mewarnai mereka.
Informasi yang indah adalah sumber yang sangat bagus untuk mendapatkan ide. Lihat grafik ini misalnya: Kafein dan Kalori : siapa pun dapat memahaminya, dan enak dipandang.
Dan, tentu saja, lihat karya Edward Tufte.
sumber
Saya lebih suka plot biola sendiri, karena ini memberikan gambaran tentang bentuk distribusinya. Namun jika rentang nilai besar adalah masalahnya, maka mungkin akan lebih baik untuk memplot log data daripada nilai mentah, yang kemudian akan membuat memilih ukuran kotak untuk histogram dll. Karena tampilan untuk awam, jangan dapat menyebutkan log dan tandai sumbu 10, 100, 1000, 10000, 100000, 1000000 dll.
sumber