Apakah peta panas “salah satu jenis visualisasi data yang paling tidak efektif”?

22

Pertanyaan: Kapan (untuk tipe apa dari masalah visualisasi data) apakah peta panas paling efektif? (Khususnya, lebih efektif daripada semua teknik visualisasi lain yang mungkin?)

Kapan peta panas paling tidak efektif?

Apakah ada pola umum atau aturan praktis yang dapat digunakan untuk memutuskan apakah peta panas cenderung menjadi cara yang efektif untuk memvisualisasikan data, dan kapan mereka cenderung tidak efektif?

(Pada prinsipnya saya memiliki peta panas dalam pikiran untuk 2 variabel kategori dan 1 variabel kontinu, tetapi saya juga tertarik mendengar pendapat tentang jenis-jenis peta panas lainnya.)

Konteks: Saya sedang mengambil kursus online tentang visualisasi data, dan saat ini mereka sedang mendiskusikan tipe plot yang tidak efektif dan berlebihan. Mereka sudah menyebutkan plot dinamit dan diagram lingkaran, dan alasan yang diberikan mengapa itu tidak efektif dan mengapa ada alternatif yang lebih baik bagi mereka jelas dan meyakinkan bagi saya. Selain itu, mudah untuk menemukan sumber lain yang menguatkan pendapat yang diberikan tentang plot dinamit dan diagram lingkaran.

Namun, kursus juga mengatakan bahwa "peta panas adalah salah satu jenis visualisasi data yang paling tidak efektif". Parafrase alasan mengapa diberikan di bawah ini. Tetapi ketika saya mencoba mencari tempat lain di Google yang menguatkan sudut pandang ini, saya mengalami banyak kesulitan, berbeda dengan mencari pendapat tentang keefektifan diagram lingkaran dan plot dinamit. Jadi saya ingin tahu sejauh mana karakterisasi peta panas yang diberikan dalam kursus itu valid, dan ketika faktor-faktor yang menentangnya paling tidak penting dan paling penting untuk konteks tertentu.

Alasan yang diberikan adalah:

  1. Sulit untuk memetakan warna ke skala berkelanjutan.

    Ada beberapa pengecualian untuk aturan ini, jadi ini biasanya bukan pemecah kesepakatan, tetapi dalam kasus peta panas, masalahnya sangat sulit, karena persepsi kita tentang perubahan warna tergantung pada warna tetangga. Dengan demikian peta panas tidak cocok untuk melihat hasil individu, bahkan dalam set data kecil. Yang mengarah ke:

  2. Menjawab pertanyaan spesifik menggunakan metode tabel look-up umumnya tidak layak, karena tidak mungkin untuk menyimpulkan dengan akurasi yang cukup nilai numerik sesuai dengan warna yang diberikan.

  3. Seringkali data tidak dikelompokkan sedemikian rupa untuk memunculkan tren.

    Tanpa pengelompokan seperti itu, seringkali sulit atau tidak mungkin untuk menyimpulkan apa pun tentang pola keseluruhan umum.

  4. Peta panas seringkali hanya digunakan untuk mengkomunikasikan "faktor wow" atau hanya untuk terlihat keren, terutama ketika menggunakan gradien multicolor, tetapi biasanya ada cara yang lebih baik untuk mengkomunikasikan data.

Memetakan data kontinu pada skala umum selalu merupakan pilihan terbaik. Jika ada komponen waktu, pilihan yang paling jelas adalah plot garis.

Chill2Macht
sumber
15
Kritik terhadap "peta panas" bermuara pada baris terakhir (4): apa sebenarnya "cara yang lebih baik" ini untuk berkomunikasi? (Jika tidak ada cara yang lebih baik, maka (1) - (3) hampir tidak relevan.) Jika tujuannya secara harfiah adalah untuk mengkomunikasikan data , maka jelas ada cara yang lebih baik: tulis angka-angkanya. Namun, tujuan visualisasi jarang untuk mengkomunikasikan data: sebaliknya, untuk mendukung interpretasi atau mengirim pesan. Interpretasi apa yang ada dalam benak sumber Anda dan apa yang diklaimnya merupakan cara yang lebih baik untuk menyajikan interpretasi tersebut?
whuber
4
@whuber Sebagai suplemen untuk itu - satu hal yang sangat baik tentang peta panas adalah bahwa dalam banyak kasus mudah untuk melengkapi mereka dengan menampilkan data mentah (mungkin sesuai bulat) langsung di setiap ubin. Bahkan menggunakan pemformatan bersyarat untuk warna latar belakang sel pada spreadsheet adalah semacam "peta panas" yang sangat efektif, dalam konteks mana sulit untuk melihat bagaimana mereka dapat ditingkatkan.
Silverfish
2
Komentar saya hanya berkaitan dengan kritik 1. Benar bahwa warna (rona) tidak memetakan ke skala yang dipesan secara psikologis meskipun secara fisik (panjang gelombang). Namun, dengan menambahkan dimensi yang berlebihan seperti kecerahan dapat membuatnya lebih mudah diartikan. Anda bisa memiliki gelap lebih tinggi dari terang tetapi menggunakan warna seperti biru muda dan merah tua.
David Lane
2
Tergantung pada konteksnya. Berikut adalah contoh bagus dari informasi berharga yang dapat ditindaklanjuti yang diperoleh dari peta panas, yang saya tidak bisa memikirkan jenis visualisasi data lain yang lebih nyaman atau berguna.
Jason C
5
Warnanya berlebihan (dan, memang, dipilih dengan buruk - itu hanya colormap gambar default di R), tetapi di sini adalah contoh tentang permainan Minesweeper yang saya kerjakan beberapa tahun yang lalu. Saya menemukan peta panas langsung menerangi karena ia mengungkapkan struktur tentang masalah yang menjadi jelas secara intuitif setelah Anda melihatnya dan memikirkannya sejenak, tetapi yang tidak segera jelas (bagi kebanyakan orang) sebelum melihat plot.
kardinal

Jawaban:

15

Tidak ada yang namanya plot "terbaik" untuk ini atau itu. Bagaimana Anda memplot data Anda tergantung pada pesan yang ingin Anda sampaikan. Plot yang biasa digunakan memiliki keuntungan bahwa pengguna lebih mungkin dapat membacanya. Meskipun demikian, itu tidak berarti bahwa mereka selalu merupakan pilihan terbaik.

Mengenai peta panas, saya telah memerintahkan tanggapan saya dengan argumen yang diduga menentang mereka.

Iklan 1) Jika Anda tidak mempercayai warna sebagai saluran enkode, gunakan kecerahan, dengan skala yang mencakup nada "warna" abu-abu gelap hingga abu-abu muda. Paling sering, Anda ingin bin variabel kontinu (juga lihat 5), sehingga Anda dapat menjaga jumlah warna rendah dan membuatnya lebih mudah untuk diterjemahkan oleh pengguna. Tapi ini bukan keharusan. Lihatlah contoh ini , di mana variabel kontinu tidak bined.

Iklan 2) Tentu saja, mereka tidak boleh digunakan sebagai alternatif untuk mencari nilai yang tepat. Peta panas harus terutama digunakan untuk menggambarkan pola, bukan untuk mengganti tabel.

Iklan 3 + 4) Saya tidak melihat bagaimana ini hanya terkait dengan peta panas.

Iklan 5) Peta panas idealnya tetapi tidak harus digunakan dengan variabel diskrit. Untuk variabel kontinu, peta panas dapat digunakan sebagai semacam histogram dua dimensi atau diagram batang, dengan binning yang tepat, serta kecerahan sebagai saluran pengkodean.

g3o2
sumber
2
Jawaban yang luar biasa! Kecuali saya tidak tahu apa artinya "Iklan". Latin? Singkatan?
xan
1
Terima kasih! "Iklan" berarti "di" atau "tentang", saya kira itu berasal dari bahasa Latin.
g3o2
Saya belum pernah melihat "iklan" menggunakan cara itu (cc, @xan). Dari uraian Anda, saya pikir saya mungkin menggunakan langkah .
gung - Reinstate Monica
1
Juga ingat untuk mengoreksi gamma Anda peta panas berbasis kecerahan.
user253751
3
@ung Tidak terlalu, IMO. Ini tidak memiliki konotasi, tidak seperti kecepatan - itu hanya berarti tambahan, tambahan, mengacu pada, seperti untuk ... Belum lagi itu universal di Barat, berasal dari bahasa Latin dan digunakan secara luas dalam teologi dan literatur ilmiah dan politik, di antara hal-hal lain. Dalam dialog (surat), kedua pihak akan menggunakannya untuk merujuk argumen ke masing-masing poin. Tampaknya jatuh ke disfavour sebagai bahasa tertulis dipangkas, meskipun. Penggantian yang biasa hanya menggunakan "1.1", bukan "Ad 1.1", yang bisa sedikit membingungkan dan tampaknya agak kasar bagi saya, tapi oh well.
Luaan
5

Seseorang tidak dapat mengatakan Heat Map adalah jenis visualisasi yang paling tidak efektif. Saya lebih suka mengatakan itu tergantung pada kebutuhan Anda. Dalam beberapa kasus, peta panas sangat berguna. Katakanlah Anda harus membuat laporan tentang kejahatan di negara yang bijaksana (atau kota-bijaksana). Di sini Anda akan memiliki kumpulan data besar yang dapat memiliki dependensi waktu.

Demikian pula, katakanlah Anda harus menyiapkan laporan tentang konsumsi listrik untuk kota. Dalam kasus ini, Anda dapat dengan mudah memvisualisasikan melalui peta Panas. Ini akan lebih masuk akal dan tidak terlalu rumit.

Jadi, singkatnya, jika Anda memiliki banyak data berkelanjutan dan Anda ingin membuat laporan yang dapat menunjukkan jawaban dengan cepat maka Heat map adalah yang terbaik.

Manish Kumar
sumber
2
Untuk konsumsi energi, seringkali tidak ada plot yang lebih baik daripada peta panas : argustech.be/wp-content/uploads/2012/04/heatmap.png Akhir pekan dan jam kerja langsung menuju ke penonton. Anda dapat melihat beban dasar, Anda dapat melihat puncak, Anda dapat melihat kapan itu terjadi. Anda dapat mendeteksi pola aneh dalam beberapa detik, misalnya jika beberapa perangkat listrik selalu hidup atau mulai terlalu dini atau terlalu terlambat.
Eric Duminil
4

Kritik 1 dalam pertanyaan awal mencakup kelemahan terbesar - bahwa sulit bagi seseorang membaca peta panas untuk memecahkan kode informasi kuantitatif yang disampaikan. Pertimbangkan plot xy-scatter atau dot plot, di mana kuantitas yang mendasarinya terkait langsung dengan jarak pada grafik - sangat mudah untuk interpretasi.

Di peta panas, di sisi lain, orang yang membaca grafik bebas untuk menafsirkan 10% 'lebih merah' atau 'lebih gelap' untuk kepuasan mereka sendiri. Di atas itu adalah masalah kemampuan orang yang berbeda untuk membedakan warna dan warna untuk memulai. Ini adalah kerugian asli, tetapi tidak fatal secara universal.

Sebaliknya, kritik ketiga tampaknya secara tidak sengaja mengidentifikasi suatu peristiwa ketika peta panas sangat berguna - ketika data dikelompokkan pada bidang 2D sehingga nilai-nilai serupa dalam dimensi ketiga menunjukkan sebagai tambalan warna atau warna tertentu. Jadi, sementara peta panas tidak efektif dalam beberapa hal, mereka berguna untuk orang lain, dan mereka harus tetap di tas Anda, dengan cara yang sama bahwa pegolf sering membawa irisan pitching atau serupa meskipun mereka tidak berguna untuk mengemudi atau meletakkan, atau tukang kayu tidak abaikan palu karena tidak baik untuk memotong kayu.

Secara umum memvisualisasikan data harus dilihat sebagai aktivitas berulang yang akan memakan waktu ketika Anda mencoba sejumlah visualisasi yang memunculkan fitur-fitur penting dari data, termasuk mencoba lebih dari satu jenis visualisasi, dan kemudian bereksperimen untuk menemukan pengaturan terbaik dalam pilihan tertentu. Juga tidak boleh diasumsikan bahwa hasilnya akan menjadi satu visualisasi - kadang-kadang sejumlah visualisasi data diperlukan untuk menyoroti beberapa fitur penting dari data. Dalam konteks ini, akan ada saat-saat di mana untuk fitur-fitur tertentu dari set data tertentu, peta panas akan menjadi yang paling efektif, dan mengkomunikasikan cluster seperti yang dijelaskan mungkin merupakan salah satu dari waktu-waktu tersebut. Secara keseluruhan, akan sering terjadi di mana visualisasi tunggal tidak dapat melakukan segalanya, dan lebih dari satu akan diperlukan.

Robert de Graaf
sumber
3

Seperti yang disebutkan di atas oleh orang lain, sangat tidak tepat untuk mengatakan bahwa peta panas selalu tidak efektif. Sebenarnya, mereka cukup efektif dalam banyak hal.

Misalnya, jika Anda ingin memvisualisasikan data 4D, cukup sederhana untuk melakukan tiga dimensi pertama dalam banyak perangkat lunak yang merencanakan. Namun, seluruh konsep 4D cukup sulit untuk dikonsep sama sekali. Apa arah / dimensi "ke-4"?

Di situlah peta panas mungkin efektif, karena itu akan memungkinkan untuk memetakan tiga dimensi pertama pada sumbu koordinat, dan yang keempat dapat divisualisasikan dengan menumpuk peta panas ke bidang yang Anda rencanakan (atau garis, tetapi itu kemungkinan kecil).

Intinya adalah bahwa Anda memerlukan konteks. Apa yang Anda cari dalam visualisasi Anda? Juga, sebagai sesama guru mandiri, saya dapat memberi tahu Anda bahwa kursus online ini cenderung sangat sepele dan tidak membantu. Anda jauh lebih baik hanya menggunakannya ketika Anda mencari informasi / bantuan tentang topik tertentu daripada mencari untuk diajarkan tentang keseluruhan subjek.

Bagaimanapun juga, semoga beruntung.

Abraham Horowitz
sumber
3

Secara alami, peta panas menampilkan data dengan dua variabel independen kontinu (atau, tidak cukup setara, satu variabel independen dari ruang vektor dua dimensi), dan satu variabel dependen kontinu. Untuk data jenis itu, peta panas jelas merupakan salah satu jenis visualisasi data yang paling efektif. Ya, ia memiliki masalah, tetapi itu tidak bisa dihindari: Anda benar-benar hanya memiliki dua dimensi untuk bekerja dengan dan ruang tiga dimensi tidak dapat dipetakan dengan cara yang melestarikan struktur , oleh karena itu Anda memerlukan peretasan seperti memetakan satu dimensi ke warna atau menggambar garis kontur dll.

R2X×Y|X||Y|, yang terbatas untuk variabel kategori - dengan kata lain, produk kartesius dari dua variabel kategori dapat dianggap sebagai variabel kategori tunggal ! Dan dalam cahaya itu, Anda bisa menggunakan plot lain, yang tidak memiliki masalah peta panas.

Jika Anda menemukan diri Anda dalam situasi di mana peta panas lebih dari dua variabel kategori tampak berguna, ini merupakan indikasi bahwa ini mungkin bukan variabel yang benar - benar kategori, tetapi variabel kontinu yang terkuantisasi.

leftaroundabout
sumber
4
Jawaban ini menarik, tapi saya pikir memberikan sedikit perhatian pada gagasan menggunakan peta panas dengan variabel kategori. Sebagai contoh, seseorang dapat membuat peringkat tingkat kategori berdasarkan jumlah mereka (atau variabel penyortiran lain yang relevan) dan kemudian menggunakan peta panas untuk memvisualisasikan distribusi bersama atau jumlah lain yang bervariasi dengan tingkat kategori bersama. Ini dapat dikaitkan dengan kopula (dan gagasan umum tentangnya). Visualisasi seperti itu, ketika dilakukan dengan baik, dapat mengungkapkan struktur nyata dalam data yang seharusnya sangat sulit dideteksi. (...)
kardinal
(...) Dan, pendekatan semacam itu tidak tergantung pada gagasan (langsung) apa pun yang memasukkan tingkat kategorikal ke dalam ruang Euclidean.
kardinal
Saya bertanya-tanya apakah Anda memiliki komentar tentang praktik menggunakan peta panas untuk ekspresi gen / data microarray kemudian - ini akan terlihat seperti kasus menggunakan peta panas untuk 2 kategori dan satu variabel kontinu yang variabel kategorinya tidak dapat benar-benar menjadi diinterpretasikan sebagai variabel kontinu yang terkuantisasi. Atau saya kira peta panas untuk matriks korelasi variabel kategorikal secara umum.
Chill2Macht
3

Peta panas sangat bagus dalam memberikan pandangan sederhana dari beberapa variabel dari perspektif deret waktu - data dapat berupa perubahan absolut dari waktu ke waktu atau distandarisasi menggunakan skor Z atau cara lain untuk menguji variabel dengan interval pengukuran yang berbeda atau perubahan relatif dari subkelompok. Itu memang memberikan pandangan yang sangat terlihat secara visual bahwa seseorang dapat melihat korelasi - atau terbalik dan menggantikan banyak grafik. Mereka juga dapat digunakan dalam preprocessing untuk menilai kemungkinan pengurangan dimensi - yaitu Anjak atau PCA.

Variabel-variabel yang mengintervensi buruk dan faktor-faktor lain dapat menjadi tersembunyi dan dilewati ketika menggunakan pendekatan ini untuk melihat korelasi. Aspek tersembunyi yang sama terjadi dengan grafik garis - namun mengingat banyaknya variabel - pengalaman saya adalah bahwa peta panas membawa begitu banyak informasi sehingga pengguna tidak mempertimbangkan aspek intervensi atau faktor tersembunyi lainnya.

Ini dari seorang ilmuwan data dari perspektif ekonom progresif dengan 20 tahun di bidang menghasilkan data dan bertugas mendidik masyarakat umum dengan data tersebut.

Paul Tulloch
sumber
1

Heatmaps lebih menguntungkan daripada scatterplots ketika ada terlalu banyak titik data untuk dilihat di sebar scatter. Ini dapat dikurangi dalam sebar menggunakan titik data transparan tetapi melampaui batas tertentu menjadi lebih baik untuk meringkas data.

Dalam posting blog ini contoh menarik dari scatterplot yang sulit ditafsirkan diberikan.

Scatterplot hanya dapat secara visual mewakili kepadatan hingga batas tertentu - ambang "titik di mana-mana" ...

Kepadatan plot, bukan titik

Solusinya adalah dengan memplot kerapatan titik binned daripada titik itu sendiri. Kita sudah mengetahui metode ini dalam satu dimensi sebagai histogram.

Dalam dua dimensi, ada beberapa cara untuk melakukannya. Bentuk nampan dapat diambil dari metode apa pun yang secara serempak menggerakkan bidang, seperti bujur sangkar atau segi enam. Untuk setiap ubin, jumlah titik data di dalam ubin dihitung. Ubin kemudian diberi warna sesuai dengan jumlah poin.

Pernyataan serupa dari dokumentasi ggplot2 pada peta panas jumlah bin 2d :

Ini adalah alternatif yang bermanfaat geom_point()jika ada overplotting.

Dalam dokumen geom_point():

Overplotting

Masalah potensial terbesar dengan sebaran adalah overplotting: setiap kali Anda memiliki lebih dari beberapa poin, poin dapat diplot di atas satu sama lain. Ini dapat sangat merusak penampilan visual plot. Tidak ada satu solusi untuk masalah ini, tetapi ada beberapa teknik yang dapat membantu. Anda dapat menambahkan informasi tambahan dengan geom_smooth(), geom_quantile()atau geom_density_2d(). Jika Anda memiliki beberapa nilai x unik, geom_boxplot()mungkin juga bermanfaat.

Atau, Anda dapat meringkas jumlah poin di setiap lokasi dan menampilkan yang dalam beberapa cara, menggunakan geom_count(), geom_hex()atau geom_density2d().

Teknik lain adalah membuat poin transparan (mis. geom_point(alpha = 0.05)) Atau sangat kecil (mis geom_point(shape = ".").).

qwr
sumber