Saya mencoba membandingkan secara visual bagaimana tiga publikasi berita yang berbeda membahas topik yang berbeda (ditentukan melalui model topik LDA). Saya memiliki dua metode terkait untuk melakukannya, tetapi telah menerima banyak umpan balik dari kolega bahwa ini tidak terlalu intuitif. Saya berharap seseorang di luar sana memiliki ide yang lebih baik untuk memvisualisasikan ini.
Dalam grafik pertama, saya menunjukkan proporsi setiap topik dalam setiap publikasi, seperti:
Ini sangat mudah dan intuitif untuk hampir semua orang yang saya ajak bicara. Namun, sulit untuk melihat perbedaan antara publikasi. Surat kabar mana yang lebih banyak membahas topik?
Untuk mendapatkan ini, saya membuat grafik perbedaan antara publikasi dengan proporsi tertinggi dan tertinggi kedua topik, diwarnai oleh publikasi dengan tertinggi. Seperti ini:
Jadi, bar besar untuk sepak bola, misalnya, benar-benar jarak antara bahasa Inggris al-Ahram dan Daily News Mesir (# 2 dalam liputan sepak bola), dan warnanya merah karena Al-Ahram adalah # 1. Demikian pula, uji coba berwarna hijau karena Mesir Independen memiliki proporsi tertinggi, dan ukuran bilah adalah jarak antara Mesir Independen dan Berita Harian Mesir (# 2 lagi).
Fakta bahwa saya harus menjelaskan bahwa semua dalam dua paragraf adalah tanda yang cukup yakin bahwa grafik gagal dalam tes swasembada. Sulit mengatakan apa yang sebenarnya terjadi hanya dengan melihatnya.
Adakah saran umum tentang cara menyoroti publikasi dominan untuk setiap topik dengan cara yang lebih intuitif?
Sunting: Data untuk dimainkan: Ini dput
output dari R , serta file CSV .
Sunting 2: Berikut adalah versi titik awal petak, dengan diameter titik-titik sebanding dengan proporsi topik dalam korpus (yang merupakan cara topik awalnya diurutkan). Meskipun saya masih perlu men-tweak sedikit lagi, rasanya jauh lebih intuitif daripada apa yang saya lakukan sebelumnya. Terimakasih semuanya!
Jawaban:
Terima kasih telah membuat data dapat diakses dan untuk dataset yang menarik dan tantangan grafis.
Saran utama saya adalah grafik titik (Cleveland).
Detail paling penting yang ingin saya tekankan:
Superimposisi di sini memungkinkan dan memudahkan perbandingan.
Urutan topik di pajangan Anda tampak sangat sewenang-wenang. Tidak ada tatanan alami (misalnya waktu, ruang, variabel terurut) Saya akan selalu mengurutkan pada salah satu variabel untuk memberikan kerangka kerja. Yang akan digunakan bisa menjadi masalah apakah seseorang sangat menarik atau penting, keputusan peneliti. Kemungkinan lain adalah memesan pada beberapa ukuran perbedaan antara makalah, sehingga topik yang menerima liputan yang sama berada di satu ujung dan mereka yang menerima liputan yang berbeda di ujung lainnya.
Penanda terbuka atau simbol titik memungkinkan tumpang tindih atau identitas untuk diselesaikan lebih baik daripada penanda atau simbol yang tertutup atau solid, yang dalam kasus terburuk mengaburkan atau menyumbat satu sama lain. (Alternatif yang mungkin bisa digunakan di sini adalah huruf-huruf seperti A, D dan I untuk ketiga surat kabar.)
Jelas ada banyak ruang untuk meningkatkan desain saya. Misalnya, apakah hurufnya terlalu besar dan / atau terlalu berat? Di sisi lain, pos harus mudah dibaca, atau grafiknya gagal.
Beberapa poin pickier yang lebih kecil:
Sebuah. Merah dan hijau pada grafik Anda adalah kombinasi warna yang harus dihindari. Ketika marker yang berbeda digunakan, pilihan warna sedikit kurang penting.
b. Kutu horizontal pada grafik Anda mengganggu. Sebaliknya, garis kotak pada tambang diperlukan, tetapi saya mencoba membuatnya tidak mengganggu dengan menggunakan garis tipis dan ringan.
Cleveland dot chart berutang paling banyak kepada
Cleveland, WS 1984. Metode grafis untuk penyajian data: jeda skala penuh, grafik titik, dan logging multibased. Ahli Statistik Amerika 38: 270-80.
Cleveland, WS 1985. Elemen data grafik. Monterey, CA: Wadsworth.
Cleveland, WS 1994. Elemen data grafik. Summit, NJ: Hobart Press.
Satu prekursor (lebih terkenal secara statistik untuk pekerjaan yang sangat berbeda !!!) adalah
Pearson, ES 1956. Beberapa aspek geometri statistik: penggunaan presentasi visual dalam memahami teori dan aplikasi statistik matematika. Jurnal Masyarakat Statistik Kerajaan A 119: 125-146.
Bagi yang berminat, grafik disiapkan di Stata setelah membaca di .csv dengan kode
sumber
Titik plot dari Nick Cox mungkin yang terbaik untuk gambaran lengkap. Jika Anda benar-benar ingin menekankan hubungan pertama lawan kedua, inilah modifikasi bagan Anda yang mengimbangi bilah perbedaan dengan panjang bilah kedua.
Dan untuk tampilan gambar besar yang berbeda, Anda dapat mencoba sesuatu seperti kemiringan atau plot koordinat paralel. Garis mungkin agak terlalu ramai di sini, tetapi mungkin berhasil jika Anda ingin menyorot pada bagian dari topik.
Juga, Anda dapat mencoba helpmeviz.com yang diarahkan pada pertanyaan data yang sangat spesifik seperti ini.
sumber
Instict pertama saya adalah menyarankan plot Mosaik ; itu grafik setiap sub-kategori sebagai persegi panjang, di mana satu dimensi mewakili jumlah total untuk kategori utama dan dimensi lainnya mewakili bagian proporsional sub-kategori. Ada paket R untuk menggambar mereka , tetapi juga cukup mudah dilakukan dengan alat grafik tingkat rendah.
Namun, plot mosaik (seperti grafik batang bertumpuk berdasarkan persentase) berfungsi paling baik jika hanya ada 2 atau 3 kategori dalam dimensi di mana Anda ingin membandingkan proporsi. Jadi mereka akan bekerja dengan baik jika Anda ingin membandingkan perbedaan antara topik dalam proporsi artikel yang ada di masing-masing tiga surat kabar , tetapi tidak begitu banyak untuk penggunaan yang Anda maksudkan, membandingkan perbedaan antara tiga surat kabar dalam proporsi liputan untuk masing-masing topik . Perbedaan yang halus tapi penting!
Untuk apa yang ingin Anda tekankan, saya pikir grafik yang paling efektif adalah salah satu yang paling sederhana - grafik batang yang dikelompokkan. Lebih banyak orang memahami grafik batang daripada diagram titik; sekilas, Anda dapat melihat bahwa Anda membandingkan jumlah ukuran yang berbeda, dan nilai yang ingin Anda bandingkan berdampingan.
Namun, jika Anda benar-benar ingin menekankan perbedaan dalam proporsi, Anda dapat membuat grafik batang khusus yang dikelompokkan, dimodifikasi untuk memposisikan setiap grup sehingga nilai median per kategori selaras dengan sumbu, alih-alih nilai nol:
Perhatikan bahwa bilah di masing-masing kelompok masih selaras untuk perbandingan ukuran yang mudah, dan bahwa garis dasar setiap kelompok sekarang diposisikan di sebelah kiri sumbu sesuai dengan nilai median kelompok itu, sedangkan bilah yang memproyeksikan di sebelah kanan sumbu setara. ke grafik batang kedua Anda yang menunjukkan perbedaan antara dua kategori teratas.
Terlepas dari apakah Anda menggunakan grafik batang yang dikelompokkan standar atau grafik yang disesuaikan dengan offset seperti di atas, Anda masih bisa mengambil ide dari plot mosaik dan membuat lebar setiap batang sebanding dengan total jumlah artikel untuk koran itu (jadi ukuran bilah sebanding dengan jumlah artikel di surat kabar dalam kategori tersebut).
Karena statistik pengujian Anda adalah properti dari setiap perbandingan , bukan nilai individual, saya pikir itu tidak berguna untuk mengukur setiap titik data sesuai dengan signifikansi. Sebaliknya, saya akan memiliki ikon di sebelah masing-masing pengelompokan yang mewakili signifikansi. Untuk publikasi akademik, standar
*
/**
/***
memiliki manfaat keakraban, tetapi Anda bisa menjadi kreatif jika Anda ingin menunjukkan kontinum penuh dari statistik.sumber
Sudahkah Anda mencoba bagan gelembung? https://code.google.com/apis/ajax/playground/?type=visualization#bubble_chart
Topik individual dapat berupa lingkaran dan setiap lingkaran dapat menjadi diagram lingkaran persentase yang setiap outlet berita membahas topik tersebut. Ukuran lingkaran bisa menunjukkan cakupan relatif topik. misalnya jika lebih banyak artikel total ditulis tentang minyak daripada kultur maka lingkaran minyak memiliki diameter yang lebih besar.
sumber