Visualisasi dan Overplotting: Alternatif untuk pencar

8

Saya memiliki satu set besar data negara yang penuh sesak (seperti yang Anda lihat di bawah), tapi saya perlu label dan outlier - Saya juga punya banyak grafik, jadi akan membosankan untuk mengatur ulang jendela dan menambahkan datapoint palsu untuk outlier.

Apakah ada alternatif yang baik untuk sebaran yang mungkin lebih baik dalam situasi seperti itu? Saya benar-benar ingin melakukan peta, tetapi saya perlu kedua bagian pasangan yang diperintahkan ditampilkan.

masukkan deskripsi gambar di sini

arebearit
sumber
1
Ini mengejutkan saya karena sulit dijawab dalam bentuknya yang sekarang. Bisakah Anda memberikan lebih banyak informasi tentang situasi Anda, data Anda, & tujuan Anda? Apa variabelnya? Apakah Anda hanya perlu mengidentifikasi outlier entah bagaimana (misalnya, apakah pendekatan berbasis non-visualisasi boleh-boleh saja)? Perangkat lunak apa yang Anda gunakan? Apakah Anda hanya meminta kode? (Jika demikian, pertanyaannya akan di luar topik di sini.) Dan lain
gung - Reinstate Monica
Ada perangkat lunak (dalam R, saya pikir) yang akan mencoba untuk menempatkan label agar tidak overplot. Juga, jika Anda memiliki semua label yang tidak perlu poin, label akan melakukan pekerjaan! Coba dengan ukuran font yang lebih kecil, dan bahkan mungkin dengan font yang dapat dilihat, jangan ingat namanya, harus mungkin dalam R, dengan memvariasikan transparansi. Lihatlah ggplot2, atau F Harrells Design, mungkin sesuatu di sana.
kjetil b halvorsen

Jawaban:

13

Beberapa teknik ditunjukkan dalam plot ini yang saya buat beberapa bulan yang lalu.

  1. Hanya beri label pada poin "menarik", dan andalkan label hover untuk mengidentifikasi poin lain berdasarkan permintaan. Ini membutuhkan intervensi manusia untuk melakukannya dengan baik, meskipun perangkat lunak dapat mendekati heuristik seperti hanya menunjukkan label ketika mereka dapat ditampilkan tanpa tumpang tindih.

  2. Ubah skala, seperti dengan log atau kuantil. Perhatian di sini adalah bahwa skala tidak lagi secara langsung selaras dengan persepsi kita. Pemirsa harus mengingat transformasi.

masukkan deskripsi gambar di sini

Pilihan lain:

  1. Gunakan trellising atau kelipatan kecil . Yaitu, perlihatkan serangkaian grafik, masing-masing dengan subset poin, seperti satu grafik untuk setiap wilayah untuk data negara Anda.

  2. Gunakan bagan variabel-tunggal yang ditautkan, seperti bilah atau plot titik, sehingga label ada di sumbu. Ini membantu jika Anda dapat mengurutkan berdasarkan salah satu variabel secara interaktif.

masukkan deskripsi gambar di sini

xan
sumber
Saya suka plot di atas; apakah Anda melepaskan kode untuk suatu tempat? "Yaitu, perlihatkan serangkaian grafik, masing-masing dengan subset poin, seperti satu grafik untuk setiap wilayah untuk data negara Anda" adalah poin yang bagus - Nick Cox memiliki jawaban yang sangat baik di suatu tempat, menunjukkan bagaimana ini dapat dilakukan di Stata (saya pikir dia menulis paket untuk itu). Saya akan melihat apakah saya dapat melacaknya dan menautkannya.
Silverfish
Terima kasih @ Silververfish! Saya membuat plot pencar secara interaktif di JMP (produk perusahaan saya) dengan label yang disesuaikan dengan tangan dan bagian berwarna pink ditambahkan secara terprogram. Bahaya "penerbitan" ke Twitter - Saya perlu mempostingnya di suatu tempat dengan sedikit penjelasan, data, dan skrip. Akan ditindaklanjuti dengan tautan di sini jika saya berhasil.
xan
1
@Silverfish Anda mungkin memikirkan posting di Statalist, misalnya statalist.org/forums/forum/general-stata-discussion/general/…
Nick Cox
1
Data dan skrip untuk grafik pertama saya ada di community.jmp.com/docs/DOC-7108 .
xan
@Nick Cox Itu benar! Sebenarnya saya pikir saya melihatnya di: Cox, NJ 2010, "Grafik bagian", The Stata Journal , 10 : 670-681. Tapi grafik warna di post Statalist itu malah membuatnya lebih jelas. Tautan ke artikel jurnal adalah www.stata-journal.com/sjpdf.html?articlenum=gr0046 (Saya menduga tanda tanya menghentikannya muncul sebagai hyperlink)
Silverfish
5

Jika Anda menginginkan alternatif untuk sebaran plot, maka plot koordinat paralel dapat berfungsi, terutama jika Anda mencoba menunjukkan hubungan antara banyak variabel. Anda "memiliki banyak grafik", dan plot koordinat paralel mungkin dapat menguranginya menjadi satu! Berikut adalah contoh di set data Iris yang terkenal , yang diambil dari Wikipedia ( kredit gambar ):

Plot koordinat paralel untuk data iris

Plot menunjukkan variasi antar spesies dengan sangat jelas. Anda mungkin memilih untuk mewarnai berdasarkan wilayah geografis atau tingkat perkembangan saja. Kita dapat melihat betapa sulitnya untuk membedakan ketiga spesies berdasarkan lebar sepal, tetapi ada lebih banyak pemisahan dalam panjang kelopaknya. Setelah sedikit penyesuaian mental (mata kita bisa terlalu terlatih untuk mencari "kemiringan ke atas"), jelas ada korelasi positif antara lebar kelopak dan panjang kelopak karena lebar kelopak yang lebih tinggi dikaitkan dengan panjang kelopak yang lebih tinggi. Bunga di bagian atas skala untuk satu, cenderung berada di bagian atas skala untuk yang lain - ini dimanifestasikan dalam garis sejajar yang berjalan di antara sumbu. Di sisi lain ada korelasi negatif antara lebar sepal dan panjang sepal,

Gambar berhasil menangkap banyak informasi yang tersedia dalam seluruh matriks plot pencar ( kredit gambar ):

Matriks pencar untuk data iris

Di sisi positif, plot sumbu paralel memberi kita kemampuan untuk mengikuti individu di semua variabel yang diukur: jika kita melihat dua titik menarik pada dua plot pencar yang terpisah, khususnya pencilan, mungkin tidak jelas apakah mereka mewakili individu yang sama, tetapi pada plot sumbu paralel kita bisa "mengikuti utas". Pada sisi negatifnya, membuang semua plot pencar tersebut membuang informasi tentang hubungan multivarian. Yang paling jelas, kami tidak dapat melihat beberapa detail pengelompokan dengan sangat jelas (meskipun catatan Nick Cox merekomendasikan plot koordinat paralel untuk tujuan menyelidiki bagaimana pengelompokan "mendalam" melalui variabel-variabel) dan kemungkinan untuk diskriminasi linear sepenuhnya dikaburkan. Selain itu, sulit untuk melihat korelasi antara sumbu yang berjauhan pada plot koordinat paralel,

Jika Anda memiliki opsi interaktivitas, daripada visualisasi statis, maka plot koordinat paralel menawarkan beberapa opsi untuk menyiasati ini. Misalnya, pengguna dapat mengganti urutan sumbu, menempatkan variabel di samping satu sama lain untuk melihat hubungan yang lebih jelas. Karena korelasi positif dan negatif berperilaku sangat berbeda pada plot koordinat paralel, akan sangat membantu untuk dapat membalik sumbu (jika Anda membalikkan arah sumbu yang memiliki korelasi negatif dengan sumbu yang berdekatan, maka garis di antara mereka menjadi "tidak terurai" ). Bahkan pada plot statis, paling efektif untuk membalikkan sumbu untuk menghasilkan sebanyak mungkin korelasi positif, dan memesan sumbu untuk membuat korelasi berturut-turut sekuat mungkin, karena sulit untuk mengikuti alur melalui kusut (lihat Nick Cox di titik ini).

Mungkin fitur interaktif yang paling penting adalah menyikat dan menghubungkan : pengguna dapat memilih misalnya kuartil atas individu berdasarkan satu variabel, dan garis mereka secara otomatis disorot sepanjang jalan melalui plot. Jika pada sumbu lain, sebagian besar titik di sekitar bagian atas disorot, maka ini menunjukkan korelasi positif (tetapi kita harus memeriksa untuk melihat kuartil bawah dikaitkan dengan titik di bagian bawah variabel kedua); jika sebagian besar poin di sekitar bagian bawah disorot, itu menunjukkan korelasi negatif; jika pilihan titik yang tersebar secara acak sepanjang sumbu disorot, itu menunjukkan sedikit korelasi.

Dengan jumlah negara yang Anda masukkan, tampaknya sulit untuk memberi label semua pada plot apa pun kecuali Anda memiliki kendala ruang yang luar biasa murah hati. Anda mungkin harus puas dengan menyoroti hanya masing-masing negara yang paling penting. Pada visualisasi interaktif, hover label dapat menghindari kekacauan (seperti @xan tunjukkan) dan mungkin Anda dapat mengizinkan pengguna untuk menyorot semua negara di wilayah tertentu (atau pengelompokan lain) yang mungkin secara otomatis menampilkan label mereka.

Jika Anda hanya menggunakan label dalam jumlah terbatas, satu tempat yang mungkin Anda pertimbangkan untuk menempatkannya adalah pada sumbu sendiri. Jika Anda melihat Tampilan Visual Informasi Kuantitatif Edward Tufte , Bab 7: Elemen Grafis Multifungsi, Anda akan melihat ini sangat mirip dengan saran Tufte untuk apa yang disebutnya "tabel-grafik" untuk penerimaan pajak pemerintah ( mungkin lebih akrab bagi Anda sebagai "slopegraph"). Setiap sumbu menjadi semacam tabel peringkat, yang merupakan fitur yang bagus. (Ada beberapa perbedaan antara pendekatan, terutama karena tabel-contoh Tufte menggunakan satuan dan skala yang sama pada setiap sumbu, daripada menormalkan data yang cocok, dan karena "sumbu" -nya mewakili periode waktu sebelumnya dan kemudian, lereng memiliki interpretasi tambahan sebagai laju pertumbuhan. Interpretasi tersebut umumnya tidak berlaku untuk plot koordinat paralel, tetapi gagasan tabel peringkat pada setiap sumbu tidak.)

Tautan dan referensi

Gegat
sumber
1
+1. Terima kasih untuk menyebutkannya. Perhatikan bahwa menggabungkan merah dan hijau menciptakan tantangan bagi banyak orang, terutama ketika simbolnya sama! Merah, biru, dan hitam akan bekerja lebih baik.
Nick Cox
@Nick Ya saya pikir ini bukan contoh plot yang sangat bagus di bagian depan itu - saya hanya meminjam mereka karena mereka dilisensikan secara bebas (di Wikipedia). Jika saya dapat menemukan contoh berlisensi bebas yang lebih baik, saya akan menggantinya (atau jika saya punya sedikit waktu untuk membuatnya sendiri).
Silverfish