Bagaimana cara terbaik memvisualisasikan perbedaan dalam banyak proporsi di tiga kelompok?

18

Saya mencoba membandingkan secara visual bagaimana tiga publikasi berita yang berbeda membahas topik yang berbeda (ditentukan melalui model topik LDA). Saya memiliki dua metode terkait untuk melakukannya, tetapi telah menerima banyak umpan balik dari kolega bahwa ini tidak terlalu intuitif. Saya berharap seseorang di luar sana memiliki ide yang lebih baik untuk memvisualisasikan ini.

Dalam grafik pertama, saya menunjukkan proporsi setiap topik dalam setiap publikasi, seperti:

Proporsi untuk semua topik dan publikasi

Ini sangat mudah dan intuitif untuk hampir semua orang yang saya ajak bicara. Namun, sulit untuk melihat perbedaan antara publikasi. Surat kabar mana yang lebih banyak membahas topik?

Untuk mendapatkan ini, saya membuat grafik perbedaan antara publikasi dengan proporsi tertinggi dan tertinggi kedua topik, diwarnai oleh publikasi dengan tertinggi. Seperti ini:

Perbedaan antara topik tertinggi pertama dan kedua

Jadi, bar besar untuk sepak bola, misalnya, benar-benar jarak antara bahasa Inggris al-Ahram dan Daily News Mesir (# 2 dalam liputan sepak bola), dan warnanya merah karena Al-Ahram adalah # 1. Demikian pula, uji coba berwarna hijau karena Mesir Independen memiliki proporsi tertinggi, dan ukuran bilah adalah jarak antara Mesir Independen dan Berita Harian Mesir (# 2 lagi).

Fakta bahwa saya harus menjelaskan bahwa semua dalam dua paragraf adalah tanda yang cukup yakin bahwa grafik gagal dalam tes swasembada. Sulit mengatakan apa yang sebenarnya terjadi hanya dengan melihatnya.

Adakah saran umum tentang cara menyoroti publikasi dominan untuk setiap topik dengan cara yang lebih intuitif?

Sunting: Data untuk dimainkan: Ini dputoutput dari R , serta file CSV .

Sunting 2: Berikut adalah versi titik awal petak, dengan diameter titik-titik sebanding dengan proporsi topik dalam korpus (yang merupakan cara topik awalnya diurutkan). Meskipun saya masih perlu men-tweak sedikit lagi, rasanya jauh lebih intuitif daripada apa yang saya lakukan sebelumnya. Terimakasih semuanya!

Dot plot

Andrew
sumber
1
Saya baru saja menambahkan beberapa data (untuk R dan CSV). Saya belum selesai memilih warna yang bagus (oleh karena itu Christmasy red / green), meskipun saya sadar akan masalah buta warna :)
Andrew
1
Penyebutan "proporsi" sedikit herring merah di sini, karena data tidak benar-benar proporsi dan yang lebih penting, tidak ada solusi grafis sejauh ini tergantung pada data menjadi proporsi. Ini bagus karena solusi memiliki relevansi dengan berbagai data, tetapi jangan disesatkan.
Nick Cox
(+1) Pertanyaan yang bagus, termasuk dataset yang dapat diunduh dan tindak lanjut cepat!
chl
Andrew, mengenai hasil edit terakhir Anda, saya pikir akan lebih baik dengan garis kotak vertikal. Mereka membuat pola checker tetapi tidak menambahkan banyak nilai, dengan asumsi Anda tidak peduli tentang membaca nilai yang tepat dari grafik.
xan
Tanpa garis vertikal?
Andrew

Jawaban:

18

Terima kasih telah membuat data dapat diakses dan untuk dataset yang menarik dan tantangan grafis.

Saran utama saya adalah grafik titik (Cleveland).

masukkan deskripsi gambar di sini

Detail paling penting yang ingin saya tekankan:

  1. Superimposisi di sini memungkinkan dan memudahkan perbandingan.

  2. Urutan topik di pajangan Anda tampak sangat sewenang-wenang. Tidak ada tatanan alami (misalnya waktu, ruang, variabel terurut) Saya akan selalu mengurutkan pada salah satu variabel untuk memberikan kerangka kerja. Yang akan digunakan bisa menjadi masalah apakah seseorang sangat menarik atau penting, keputusan peneliti. Kemungkinan lain adalah memesan pada beberapa ukuran perbedaan antara makalah, sehingga topik yang menerima liputan yang sama berada di satu ujung dan mereka yang menerima liputan yang berbeda di ujung lainnya.

  3. Penanda terbuka atau simbol titik memungkinkan tumpang tindih atau identitas untuk diselesaikan lebih baik daripada penanda atau simbol yang tertutup atau solid, yang dalam kasus terburuk mengaburkan atau menyumbat satu sama lain. (Alternatif yang mungkin bisa digunakan di sini adalah huruf-huruf seperti A, D dan I untuk ketiga surat kabar.)

Jelas ada banyak ruang untuk meningkatkan desain saya. Misalnya, apakah hurufnya terlalu besar dan / atau terlalu berat? Di sisi lain, pos harus mudah dibaca, atau grafiknya gagal.

Beberapa poin pickier yang lebih kecil:

Sebuah. Merah dan hijau pada grafik Anda adalah kombinasi warna yang harus dihindari. Ketika marker yang berbeda digunakan, pilihan warna sedikit kurang penting.

b. Kutu horizontal pada grafik Anda mengganggu. Sebaliknya, garis kotak pada tambang diperlukan, tetapi saya mencoba membuatnya tidak mengganggu dengan menggunakan garis tipis dan ringan.

× 0,1% atau 2%, jadi 98% dari kertas adalah sesuatu yang lain? Saya menggunakan proporsi secara langsung di .csv yang disediakan.

Cleveland dot chart berutang paling banyak kepada

Cleveland, WS 1984. Metode grafis untuk penyajian data: jeda skala penuh, grafik titik, dan logging multibased. Ahli Statistik Amerika 38: 270-80.

Cleveland, WS 1985. Elemen data grafik. Monterey, CA: Wadsworth.

Cleveland, WS 1994. Elemen data grafik. Summit, NJ: Hobart Press.

Satu prekursor (lebih terkenal secara statistik untuk pekerjaan yang sangat berbeda !!!) adalah

Pearson, ES 1956. Beberapa aspek geometri statistik: penggunaan presentasi visual dalam memahami teori dan aplikasi statistik matematika. Jurnal Masyarakat Statistik Kerajaan A 119: 125-146.

Bagi yang berminat, grafik disiapkan di Stata setelah membaca di .csv dengan kode

graph dot (asis) prop , over(pub) over(label, sort(1)) asyvars 
marker(1, ms(Oh)) marker(2, ms(+)) marker(3, ms(Th)) linetype(line)   
lines(lc(gs12) lw(vthin)) scheme(s1color) 
Nick Cox
sumber
Ini luar biasa — terima kasih! Persen sayangnya tidak menambah apa-apa karena nilai-nilai adalah sarana standar dari kumpulan besar dokumen (yaitu setiap dokumen dalam setiap publikasi terdiri dari beberapa kombinasi dari 20 topik, ditemukan oleh LDA — ini menunjukkan cara dinormalisasi ... maka angka kecil)
Andrew
Juga, topik-topik tersebut diperintahkan berdasarkan proporsi mereka dalam korpus. Pemerintahan Mesir adalah topik yang paling sering muncul, sedangkan topik lain-lain adalah topik paling langka. Tetapi menggunakan urutan itu di sini membuat titik / simbol sedikit lebih sulit untuk diikuti secara visual.
Andrew
Ini bagus! Terima kasih! Saya memperbarui posting asli untuk mencerminkan saran Anda dan menambahkan proporsi korpus.
Andrew
(+6) Jawaban yang bagus! Dan selalu menyenangkan memiliki referensi dan kode yang dapat direproduksi.
chl
@chl Terima kasih banyak atas komentar apresiatif dan reputasi ekstra.
Nick Cox
14

Titik plot dari Nick Cox mungkin yang terbaik untuk gambaran lengkap. Jika Anda benar-benar ingin menekankan hubungan pertama lawan kedua, inilah modifikasi bagan Anda yang mengimbangi bilah perbedaan dengan panjang bilah kedua.

masukkan deskripsi gambar di sini

Dan untuk tampilan gambar besar yang berbeda, Anda dapat mencoba sesuatu seperti kemiringan atau plot koordinat paralel. Garis mungkin agak terlalu ramai di sini, tetapi mungkin berhasil jika Anda ingin menyorot pada bagian dari topik.

masukkan deskripsi gambar di sini

Juga, Anda dapat mencoba helpmeviz.com yang diarahkan pada pertanyaan data yang sangat spesifik seperti ini.

xan
sumber
Menarik! Poin menit: judul sumbu atau label "proporsi" tidak cocok dengan unit%.
Nick Cox
Ooh, ini sangat menarik. Saya akan bermain dengan ini untuk melihat apakah itu dapat melengkapi diagram titik.
Andrew
2

Instict pertama saya adalah menyarankan plot Mosaik ; itu grafik setiap sub-kategori sebagai persegi panjang, di mana satu dimensi mewakili jumlah total untuk kategori utama dan dimensi lainnya mewakili bagian proporsional sub-kategori. Ada paket R untuk menggambar mereka , tetapi juga cukup mudah dilakukan dengan alat grafik tingkat rendah.

Namun, plot mosaik (seperti grafik batang bertumpuk berdasarkan persentase) berfungsi paling baik jika hanya ada 2 atau 3 kategori dalam dimensi di mana Anda ingin membandingkan proporsi. Jadi mereka akan bekerja dengan baik jika Anda ingin membandingkan perbedaan antara topik dalam proporsi artikel yang ada di masing-masing tiga surat kabar , tetapi tidak begitu banyak untuk penggunaan yang Anda maksudkan, membandingkan perbedaan antara tiga surat kabar dalam proporsi liputan untuk masing-masing topik . Perbedaan yang halus tapi penting!

Untuk apa yang ingin Anda tekankan, saya pikir grafik yang paling efektif adalah salah satu yang paling sederhana - grafik batang yang dikelompokkan. Lebih banyak orang memahami grafik batang daripada diagram titik; sekilas, Anda dapat melihat bahwa Anda membandingkan jumlah ukuran yang berbeda, dan nilai yang ingin Anda bandingkan berdampingan.

Namun, jika Anda benar-benar ingin menekankan perbedaan dalam proporsi, Anda dapat membuat grafik batang khusus yang dikelompokkan, dimodifikasi untuk memposisikan setiap grup sehingga nilai median per kategori selaras dengan sumbu, alih-alih nilai nol:

                  Difference in proportion of coverage
                     per Newspaper,
                     relative to category median 
                     (narrow bars)
    ____-0.1%____0_____0.1%____0.2%_____
                 |
        |********|*****
A       |~~~~~~~~|
        |####    |
                 |
            |****|**********
B           |~~  |
            |####|
                 |
         |*****  |
C        |~~~~~~~|~~~~~
         |#######|
                 |
     |***        |
D    |~~~~~~~~~~~|
     |###########|##
                 |
0.2%_____0.1%____0_____
Median proportion of coverage 
   per category, all papers
   (large bars)

Perhatikan bahwa bilah di masing-masing kelompok masih selaras untuk perbandingan ukuran yang mudah, dan bahwa garis dasar setiap kelompok sekarang diposisikan di sebelah kiri sumbu sesuai dengan nilai median kelompok itu, sedangkan bilah yang memproyeksikan di sebelah kanan sumbu setara. ke grafik batang kedua Anda yang menunjukkan perbedaan antara dua kategori teratas.

Terlepas dari apakah Anda menggunakan grafik batang yang dikelompokkan standar atau grafik yang disesuaikan dengan offset seperti di atas, Anda masih bisa mengambil ide dari plot mosaik dan membuat lebar setiap batang sebanding dengan total jumlah artikel untuk koran itu (jadi ukuran bilah sebanding dengan jumlah artikel di surat kabar dalam kategori tersebut).

Karena statistik pengujian Anda adalah properti dari setiap perbandingan , bukan nilai individual, saya pikir itu tidak berguna untuk mengukur setiap titik data sesuai dengan signifikansi. Sebaliknya, saya akan memiliki ikon di sebelah masing-masing pengelompokan yang mewakili signifikansi. Untuk publikasi akademik, standar */ **/ ***memiliki manfaat keakraban, tetapi Anda bisa menjadi kreatif jika Anda ingin menunjukkan kontinum penuh dari statistik.

AmeliaBR
sumber
Gagasan utama di sini adalah mengelompokkan bilah secara vertikal. Itu desain yang banyak digunakan, tetapi menyiratkan 60 bar secara vertikal dan bukan 20 dalam aslinya poster. Meskipun Anda dapat dengan jelas mengubah lebar bilah, saya pikir Anda akan memerlukan lebih banyak ruang untuk melakukannya dengan baik dalam hal ini, terutama karena Anda ingin menambahkan ruang antar grup.
Nick Cox
@NickCox Itu adalah downside dibandingkan dengan bagan asli yang lebih kompak, meskipun Anda bisa memutar seluruh grafik 90 derajat jika figur berorientasi lanskap cocok dengan tata letak keseluruhan Anda.
AmeliaBR
Anda bisa, tetapi 60 batang juga sulit dari kiri ke kanan, dan 20 label seperti "Persaudaraan Muslim dan politik" harus tetap dapat dibaca ...
Nick Cox
Anda mungkin bisa membuatnya bekerja dengan menempatkan bilah dalam grup di atas satu sama lain, bukan berdampingan. Sulit untuk mengatakan tanpa melihat mockup (dan seni ASCII saya tidak pandai menyampaikan tampilan dan nuansa). Ini akan menjadi kurang intuitif karena strukturnya tidak familiar, dan dapat menyebabkan kebingungan jika dua batang hampir sama tingginya. Tetapi jika alternatifnya adalah lebar satu pixel pixel ...
AmeliaBR
Jadi, Anda mendekati saran dalam jawaban saya dari diagram titik.
Nick Cox
1

Sudahkah Anda mencoba bagan gelembung? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart

Topik individual dapat berupa lingkaran dan setiap lingkaran dapat menjadi diagram lingkaran persentase yang setiap outlet berita membahas topik tersebut. Ukuran lingkaran bisa menunjukkan cakupan relatif topik. misalnya jika lebih banyak artikel total ditulis tentang minyak daripada kultur maka lingkaran minyak memiliki diameter yang lebih besar.

rocinante
sumber
[X,Y]
1
@NickStauner Saya tidak melihat pertanyaan yang diedit dengan set data ketika saya awalnya menjawab ini. Koordinasi tidak akan menandakan banyak tetapi jumlah publikasi. Lingkaran dapat dikelompokkan berdasarkan topik atau ukuran diameter. Saya tidak tahu mengapa persentase digunakan sejak awal karena jumlahnya sangat kecil.
rocinante