Saya memiliki satu set besar data negara yang penuh sesak (seperti yang Anda lihat di bawah), tapi saya perlu label dan outlier - Saya juga punya banyak grafik, jadi akan membosankan untuk mengatur ulang jendela dan menambahkan datapoint palsu untuk outlier.
Apakah ada alternatif yang baik untuk sebaran yang mungkin lebih baik dalam situasi seperti itu? Saya benar-benar ingin melakukan peta, tetapi saya perlu kedua bagian pasangan yang diperintahkan ditampilkan.
data-visualization
arebearit
sumber
sumber
Jawaban:
Beberapa teknik ditunjukkan dalam plot ini yang saya buat beberapa bulan yang lalu.
Hanya beri label pada poin "menarik", dan andalkan label hover untuk mengidentifikasi poin lain berdasarkan permintaan. Ini membutuhkan intervensi manusia untuk melakukannya dengan baik, meskipun perangkat lunak dapat mendekati heuristik seperti hanya menunjukkan label ketika mereka dapat ditampilkan tanpa tumpang tindih.
Ubah skala, seperti dengan log atau kuantil. Perhatian di sini adalah bahwa skala tidak lagi secara langsung selaras dengan persepsi kita. Pemirsa harus mengingat transformasi.
Pilihan lain:
Gunakan trellising atau kelipatan kecil . Yaitu, perlihatkan serangkaian grafik, masing-masing dengan subset poin, seperti satu grafik untuk setiap wilayah untuk data negara Anda.
Gunakan bagan variabel-tunggal yang ditautkan, seperti bilah atau plot titik, sehingga label ada di sumbu. Ini membantu jika Anda dapat mengurutkan berdasarkan salah satu variabel secara interaktif.
sumber
Jika Anda menginginkan alternatif untuk sebaran plot, maka plot koordinat paralel dapat berfungsi, terutama jika Anda mencoba menunjukkan hubungan antara banyak variabel. Anda "memiliki banyak grafik", dan plot koordinat paralel mungkin dapat menguranginya menjadi satu! Berikut adalah contoh di set data Iris yang terkenal , yang diambil dari Wikipedia ( kredit gambar ):
Plot menunjukkan variasi antar spesies dengan sangat jelas. Anda mungkin memilih untuk mewarnai berdasarkan wilayah geografis atau tingkat perkembangan saja. Kita dapat melihat betapa sulitnya untuk membedakan ketiga spesies berdasarkan lebar sepal, tetapi ada lebih banyak pemisahan dalam panjang kelopaknya. Setelah sedikit penyesuaian mental (mata kita bisa terlalu terlatih untuk mencari "kemiringan ke atas"), jelas ada korelasi positif antara lebar kelopak dan panjang kelopak karena lebar kelopak yang lebih tinggi dikaitkan dengan panjang kelopak yang lebih tinggi. Bunga di bagian atas skala untuk satu, cenderung berada di bagian atas skala untuk yang lain - ini dimanifestasikan dalam garis sejajar yang berjalan di antara sumbu. Di sisi lain ada korelasi negatif antara lebar sepal dan panjang sepal,
Gambar berhasil menangkap banyak informasi yang tersedia dalam seluruh matriks plot pencar ( kredit gambar ):
Di sisi positif, plot sumbu paralel memberi kita kemampuan untuk mengikuti individu di semua variabel yang diukur: jika kita melihat dua titik menarik pada dua plot pencar yang terpisah, khususnya pencilan, mungkin tidak jelas apakah mereka mewakili individu yang sama, tetapi pada plot sumbu paralel kita bisa "mengikuti utas". Pada sisi negatifnya, membuang semua plot pencar tersebut membuang informasi tentang hubungan multivarian. Yang paling jelas, kami tidak dapat melihat beberapa detail pengelompokan dengan sangat jelas (meskipun catatan Nick Cox merekomendasikan plot koordinat paralel untuk tujuan menyelidiki bagaimana pengelompokan "mendalam" melalui variabel-variabel) dan kemungkinan untuk diskriminasi linear sepenuhnya dikaburkan. Selain itu, sulit untuk melihat korelasi antara sumbu yang berjauhan pada plot koordinat paralel,
Jika Anda memiliki opsi interaktivitas, daripada visualisasi statis, maka plot koordinat paralel menawarkan beberapa opsi untuk menyiasati ini. Misalnya, pengguna dapat mengganti urutan sumbu, menempatkan variabel di samping satu sama lain untuk melihat hubungan yang lebih jelas. Karena korelasi positif dan negatif berperilaku sangat berbeda pada plot koordinat paralel, akan sangat membantu untuk dapat membalik sumbu (jika Anda membalikkan arah sumbu yang memiliki korelasi negatif dengan sumbu yang berdekatan, maka garis di antara mereka menjadi "tidak terurai" ). Bahkan pada plot statis, paling efektif untuk membalikkan sumbu untuk menghasilkan sebanyak mungkin korelasi positif, dan memesan sumbu untuk membuat korelasi berturut-turut sekuat mungkin, karena sulit untuk mengikuti alur melalui kusut (lihat Nick Cox di titik ini).
Mungkin fitur interaktif yang paling penting adalah menyikat dan menghubungkan : pengguna dapat memilih misalnya kuartil atas individu berdasarkan satu variabel, dan garis mereka secara otomatis disorot sepanjang jalan melalui plot. Jika pada sumbu lain, sebagian besar titik di sekitar bagian atas disorot, maka ini menunjukkan korelasi positif (tetapi kita harus memeriksa untuk melihat kuartil bawah dikaitkan dengan titik di bagian bawah variabel kedua); jika sebagian besar poin di sekitar bagian bawah disorot, itu menunjukkan korelasi negatif; jika pilihan titik yang tersebar secara acak sepanjang sumbu disorot, itu menunjukkan sedikit korelasi.
Dengan jumlah negara yang Anda masukkan, tampaknya sulit untuk memberi label semua pada plot apa pun kecuali Anda memiliki kendala ruang yang luar biasa murah hati. Anda mungkin harus puas dengan menyoroti hanya masing-masing negara yang paling penting. Pada visualisasi interaktif, hover label dapat menghindari kekacauan (seperti @xan tunjukkan) dan mungkin Anda dapat mengizinkan pengguna untuk menyorot semua negara di wilayah tertentu (atau pengelompokan lain) yang mungkin secara otomatis menampilkan label mereka.
Jika Anda hanya menggunakan label dalam jumlah terbatas, satu tempat yang mungkin Anda pertimbangkan untuk menempatkannya adalah pada sumbu sendiri. Jika Anda melihat Tampilan Visual Informasi Kuantitatif Edward Tufte , Bab 7: Elemen Grafis Multifungsi, Anda akan melihat ini sangat mirip dengan saran Tufte untuk apa yang disebutnya "tabel-grafik" untuk penerimaan pajak pemerintah ( mungkin lebih akrab bagi Anda sebagai "slopegraph"). Setiap sumbu menjadi semacam tabel peringkat, yang merupakan fitur yang bagus. (Ada beberapa perbedaan antara pendekatan, terutama karena tabel-contoh Tufte menggunakan satuan dan skala yang sama pada setiap sumbu, daripada menormalkan data yang cocok, dan karena "sumbu" -nya mewakili periode waktu sebelumnya dan kemudian, lereng memiliki interpretasi tambahan sebagai laju pertumbuhan. Interpretasi tersebut umumnya tidak berlaku untuk plot koordinat paralel, tetapi gagasan tabel peringkat pada setiap sumbu tidak.)
Tautan dan referensi
sumber