Pertanyaan: Kapan (untuk tipe apa dari masalah visualisasi data) apakah peta panas paling efektif? (Khususnya, lebih efektif daripada semua teknik visualisasi lain yang mungkin?)
Kapan peta panas paling tidak efektif?
Apakah ada pola umum atau aturan praktis yang dapat digunakan untuk memutuskan apakah peta panas cenderung menjadi cara yang efektif untuk memvisualisasikan data, dan kapan mereka cenderung tidak efektif?
(Pada prinsipnya saya memiliki peta panas dalam pikiran untuk 2 variabel kategori dan 1 variabel kontinu, tetapi saya juga tertarik mendengar pendapat tentang jenis-jenis peta panas lainnya.)
Konteks: Saya sedang mengambil kursus online tentang visualisasi data, dan saat ini mereka sedang mendiskusikan tipe plot yang tidak efektif dan berlebihan. Mereka sudah menyebutkan plot dinamit dan diagram lingkaran, dan alasan yang diberikan mengapa itu tidak efektif dan mengapa ada alternatif yang lebih baik bagi mereka jelas dan meyakinkan bagi saya. Selain itu, mudah untuk menemukan sumber lain yang menguatkan pendapat yang diberikan tentang plot dinamit dan diagram lingkaran.
Namun, kursus juga mengatakan bahwa "peta panas adalah salah satu jenis visualisasi data yang paling tidak efektif". Parafrase alasan mengapa diberikan di bawah ini. Tetapi ketika saya mencoba mencari tempat lain di Google yang menguatkan sudut pandang ini, saya mengalami banyak kesulitan, berbeda dengan mencari pendapat tentang keefektifan diagram lingkaran dan plot dinamit. Jadi saya ingin tahu sejauh mana karakterisasi peta panas yang diberikan dalam kursus itu valid, dan ketika faktor-faktor yang menentangnya paling tidak penting dan paling penting untuk konteks tertentu.
Alasan yang diberikan adalah:
Sulit untuk memetakan warna ke skala berkelanjutan.
Ada beberapa pengecualian untuk aturan ini, jadi ini biasanya bukan pemecah kesepakatan, tetapi dalam kasus peta panas, masalahnya sangat sulit, karena persepsi kita tentang perubahan warna tergantung pada warna tetangga. Dengan demikian peta panas tidak cocok untuk melihat hasil individu, bahkan dalam set data kecil. Yang mengarah ke:
Menjawab pertanyaan spesifik menggunakan metode tabel look-up umumnya tidak layak, karena tidak mungkin untuk menyimpulkan dengan akurasi yang cukup nilai numerik sesuai dengan warna yang diberikan.
Seringkali data tidak dikelompokkan sedemikian rupa untuk memunculkan tren.
Tanpa pengelompokan seperti itu, seringkali sulit atau tidak mungkin untuk menyimpulkan apa pun tentang pola keseluruhan umum.
Peta panas seringkali hanya digunakan untuk mengkomunikasikan "faktor wow" atau hanya untuk terlihat keren, terutama ketika menggunakan gradien multicolor, tetapi biasanya ada cara yang lebih baik untuk mengkomunikasikan data.
Memetakan data kontinu pada skala umum selalu merupakan pilihan terbaik. Jika ada komponen waktu, pilihan yang paling jelas adalah plot garis.
sumber
Jawaban:
Tidak ada yang namanya plot "terbaik" untuk ini atau itu. Bagaimana Anda memplot data Anda tergantung pada pesan yang ingin Anda sampaikan. Plot yang biasa digunakan memiliki keuntungan bahwa pengguna lebih mungkin dapat membacanya. Meskipun demikian, itu tidak berarti bahwa mereka selalu merupakan pilihan terbaik.
Mengenai peta panas, saya telah memerintahkan tanggapan saya dengan argumen yang diduga menentang mereka.
Iklan 1) Jika Anda tidak mempercayai warna sebagai saluran enkode, gunakan kecerahan, dengan skala yang mencakup nada "warna" abu-abu gelap hingga abu-abu muda. Paling sering, Anda ingin bin variabel kontinu (juga lihat 5), sehingga Anda dapat menjaga jumlah warna rendah dan membuatnya lebih mudah untuk diterjemahkan oleh pengguna. Tapi ini bukan keharusan. Lihatlah contoh ini , di mana variabel kontinu tidak bined.
Iklan 2) Tentu saja, mereka tidak boleh digunakan sebagai alternatif untuk mencari nilai yang tepat. Peta panas harus terutama digunakan untuk menggambarkan pola, bukan untuk mengganti tabel.
Iklan 3 + 4) Saya tidak melihat bagaimana ini hanya terkait dengan peta panas.
Iklan 5) Peta panas idealnya tetapi tidak harus digunakan dengan variabel diskrit. Untuk variabel kontinu, peta panas dapat digunakan sebagai semacam histogram dua dimensi atau diagram batang, dengan binning yang tepat, serta kecerahan sebagai saluran pengkodean.
sumber
Seseorang tidak dapat mengatakan Heat Map adalah jenis visualisasi yang paling tidak efektif. Saya lebih suka mengatakan itu tergantung pada kebutuhan Anda. Dalam beberapa kasus, peta panas sangat berguna. Katakanlah Anda harus membuat laporan tentang kejahatan di negara yang bijaksana (atau kota-bijaksana). Di sini Anda akan memiliki kumpulan data besar yang dapat memiliki dependensi waktu.
Demikian pula, katakanlah Anda harus menyiapkan laporan tentang konsumsi listrik untuk kota. Dalam kasus ini, Anda dapat dengan mudah memvisualisasikan melalui peta Panas. Ini akan lebih masuk akal dan tidak terlalu rumit.
Jadi, singkatnya, jika Anda memiliki banyak data berkelanjutan dan Anda ingin membuat laporan yang dapat menunjukkan jawaban dengan cepat maka Heat map adalah yang terbaik.
sumber
Kritik 1 dalam pertanyaan awal mencakup kelemahan terbesar - bahwa sulit bagi seseorang membaca peta panas untuk memecahkan kode informasi kuantitatif yang disampaikan. Pertimbangkan plot xy-scatter atau dot plot, di mana kuantitas yang mendasarinya terkait langsung dengan jarak pada grafik - sangat mudah untuk interpretasi.
Di peta panas, di sisi lain, orang yang membaca grafik bebas untuk menafsirkan 10% 'lebih merah' atau 'lebih gelap' untuk kepuasan mereka sendiri. Di atas itu adalah masalah kemampuan orang yang berbeda untuk membedakan warna dan warna untuk memulai. Ini adalah kerugian asli, tetapi tidak fatal secara universal.
Sebaliknya, kritik ketiga tampaknya secara tidak sengaja mengidentifikasi suatu peristiwa ketika peta panas sangat berguna - ketika data dikelompokkan pada bidang 2D sehingga nilai-nilai serupa dalam dimensi ketiga menunjukkan sebagai tambalan warna atau warna tertentu. Jadi, sementara peta panas tidak efektif dalam beberapa hal, mereka berguna untuk orang lain, dan mereka harus tetap di tas Anda, dengan cara yang sama bahwa pegolf sering membawa irisan pitching atau serupa meskipun mereka tidak berguna untuk mengemudi atau meletakkan, atau tukang kayu tidak abaikan palu karena tidak baik untuk memotong kayu.
Secara umum memvisualisasikan data harus dilihat sebagai aktivitas berulang yang akan memakan waktu ketika Anda mencoba sejumlah visualisasi yang memunculkan fitur-fitur penting dari data, termasuk mencoba lebih dari satu jenis visualisasi, dan kemudian bereksperimen untuk menemukan pengaturan terbaik dalam pilihan tertentu. Juga tidak boleh diasumsikan bahwa hasilnya akan menjadi satu visualisasi - kadang-kadang sejumlah visualisasi data diperlukan untuk menyoroti beberapa fitur penting dari data. Dalam konteks ini, akan ada saat-saat di mana untuk fitur-fitur tertentu dari set data tertentu, peta panas akan menjadi yang paling efektif, dan mengkomunikasikan cluster seperti yang dijelaskan mungkin merupakan salah satu dari waktu-waktu tersebut. Secara keseluruhan, akan sering terjadi di mana visualisasi tunggal tidak dapat melakukan segalanya, dan lebih dari satu akan diperlukan.
sumber
Seperti yang disebutkan di atas oleh orang lain, sangat tidak tepat untuk mengatakan bahwa peta panas selalu tidak efektif. Sebenarnya, mereka cukup efektif dalam banyak hal.
Misalnya, jika Anda ingin memvisualisasikan data 4D, cukup sederhana untuk melakukan tiga dimensi pertama dalam banyak perangkat lunak yang merencanakan. Namun, seluruh konsep 4D cukup sulit untuk dikonsep sama sekali. Apa arah / dimensi "ke-4"?
Di situlah peta panas mungkin efektif, karena itu akan memungkinkan untuk memetakan tiga dimensi pertama pada sumbu koordinat, dan yang keempat dapat divisualisasikan dengan menumpuk peta panas ke bidang yang Anda rencanakan (atau garis, tetapi itu kemungkinan kecil).
Intinya adalah bahwa Anda memerlukan konteks. Apa yang Anda cari dalam visualisasi Anda? Juga, sebagai sesama guru mandiri, saya dapat memberi tahu Anda bahwa kursus online ini cenderung sangat sepele dan tidak membantu. Anda jauh lebih baik hanya menggunakannya ketika Anda mencari informasi / bantuan tentang topik tertentu daripada mencari untuk diajarkan tentang keseluruhan subjek.
Bagaimanapun juga, semoga beruntung.
sumber
Secara alami, peta panas menampilkan data dengan dua variabel independen kontinu (atau, tidak cukup setara, satu variabel independen dari ruang vektor dua dimensi), dan satu variabel dependen kontinu. Untuk data jenis itu, peta panas jelas merupakan salah satu jenis visualisasi data yang paling efektif. Ya, ia memiliki masalah, tetapi itu tidak bisa dihindari: Anda benar-benar hanya memiliki dua dimensi untuk bekerja dengan dan ruang tiga dimensi tidak dapat dipetakan dengan cara yang melestarikan struktur , oleh karena itu Anda memerlukan peretasan seperti memetakan satu dimensi ke warna atau menggambar garis kontur dll.
Jika Anda menemukan diri Anda dalam situasi di mana peta panas lebih dari dua variabel kategori tampak berguna, ini merupakan indikasi bahwa ini mungkin bukan variabel yang benar - benar kategori, tetapi variabel kontinu yang terkuantisasi.
sumber
Peta panas sangat bagus dalam memberikan pandangan sederhana dari beberapa variabel dari perspektif deret waktu - data dapat berupa perubahan absolut dari waktu ke waktu atau distandarisasi menggunakan skor Z atau cara lain untuk menguji variabel dengan interval pengukuran yang berbeda atau perubahan relatif dari subkelompok. Itu memang memberikan pandangan yang sangat terlihat secara visual bahwa seseorang dapat melihat korelasi - atau terbalik dan menggantikan banyak grafik. Mereka juga dapat digunakan dalam preprocessing untuk menilai kemungkinan pengurangan dimensi - yaitu Anjak atau PCA.
Variabel-variabel yang mengintervensi buruk dan faktor-faktor lain dapat menjadi tersembunyi dan dilewati ketika menggunakan pendekatan ini untuk melihat korelasi. Aspek tersembunyi yang sama terjadi dengan grafik garis - namun mengingat banyaknya variabel - pengalaman saya adalah bahwa peta panas membawa begitu banyak informasi sehingga pengguna tidak mempertimbangkan aspek intervensi atau faktor tersembunyi lainnya.
Ini dari seorang ilmuwan data dari perspektif ekonom progresif dengan 20 tahun di bidang menghasilkan data dan bertugas mendidik masyarakat umum dengan data tersebut.
sumber
Heatmaps lebih menguntungkan daripada scatterplots ketika ada terlalu banyak titik data untuk dilihat di sebar scatter. Ini dapat dikurangi dalam sebar menggunakan titik data transparan tetapi melampaui batas tertentu menjadi lebih baik untuk meringkas data.
Dalam posting blog ini contoh menarik dari scatterplot yang sulit ditafsirkan diberikan.
Pernyataan serupa dari dokumentasi ggplot2 pada peta panas jumlah bin 2d :
Dalam dokumen
geom_point()
:sumber