Saya mengalami kesulitan untuk memilih cara yang tepat untuk memvisualisasikan data. Katakanlah kita memiliki toko buku yang menjual buku , dan setiap buku memiliki setidaknya satu kategori .
Untuk toko buku, jika kami menghitung semua kategori buku, kami memperoleh histogram yang menunjukkan jumlah buku yang termasuk dalam kategori tertentu untuk toko buku itu.
Saya ingin memvisualisasikan perilaku toko buku, saya ingin melihat apakah mereka menyukai kategori daripada kategori lainnya. Saya tidak ingin melihat apakah mereka menyukai sci-fi bersama-sama, tetapi saya ingin melihat apakah mereka memperlakukan setiap kategori dengan sama atau tidak.
Saya punya ~ 1M toko buku.
Saya telah memikirkan 4 metode:
Sampel datanya, tunjukkan hanya 500 histogram toko buku. Tampilkan dalam 5 halaman terpisah menggunakan kisi 10x10. Contoh kisi 4x4:
Sama seperti # 1. Tapi kali ini mengurutkan nilai sumbu x menurut desc hitungan mereka, jadi jika ada yang mendukung itu akan terlihat dengan mudah.
Bayangkan menempatkan histogram di # 2 bersama-sama seperti sebuah dek dan menunjukkannya dalam 3D. Sesuatu seperti ini:
Alih-alih menggunakan sumbu warna ketiga untuk mewakili warna, jadi gunakan heatmap (2D histogram):
Jika umumnya toko buku lebih memilih beberapa kategori daripada yang lain, itu akan ditampilkan sebagai gradien yang bagus dari kiri ke kanan.
Apakah Anda memiliki ide / alat visualisasi lain untuk mewakili banyak histogram?
sumber
Jawaban:
Seperti yang telah Anda temukan, tidak ada jawaban mudah untuk pertanyaan Anda!
Saya kira Anda tertarik menemukan toko buku yang aneh atau berbeda? Jika demikian, Anda dapat mencoba hal-hal seperti PCA (lihat halaman analisis gugus wikipedia untuk detail lebih lanjut).
Untuk memberi Anda ide, pertimbangkan contoh ini. Anda memiliki 26 toko buku (dengan nama A, B, .. Z). Semua toko buku serupa, kecuali:
Plot komponen utama menyoroti toko-toko ini untuk penyelidikan lebih lanjut.
Berikut ini beberapa contoh kode R:
Ini memberikan plot berikut:
PCA plot http://img265.imageshack.us/img265/7263/tmplx.jpg
Perhatikan itu:
Kemungkinan lain
Anda juga bisa melihat GGobi , saya belum pernah menggunakannya, tetapi terlihat menarik.
sumber
Saya menyarankan sesuatu yang tidak memiliki nama yang jelas (mungkin "plot paralel") dan terlihat seperti ini:
Pada dasarnya, Anda memplot semua jumlah untuk semua toko buku sebagai poin di atas kategori yang tercantum pada sumbu x dan menghubungkan hasil dari setiap toko buku dengan sebuah garis. Namun ini mungkin terlalu kusut untuk jalur 1M. Konsepnya berasal dari GGobi yang sudah disebutkan oleh csgillespie.
sumber