Konteks:
Sementara saya telah memperoleh satu set heuristik tentang cara memplot secara efektif hubungan antara dua variabel numerik. Saya membayangkan sebagian besar orang yang bekerja dengan data akan memiliki seperangkat aturan yang sama.
Contoh aturan tersebut mungkin:
- Jika salah satu variabel condong positif, pertimbangkan untuk memplot sumbu itu pada skala log.
- Jika ada banyak titik data (misalnya, n> 1000), adopsi strategi yang berbeda seperti menggunakan beberapa bentuk transparansi parsial, atau pengambilan sampel data;
- Jika salah satu variabel mengambil sejumlah kategori diskrit, pertimbangkan untuk menggunakan jitter atau plot bunga matahari;
- Jika ada tiga atau lebih variabel, pertimbangkan untuk menggunakan matriks sebar;
- Menyesuaikan beberapa bentuk garis tren seringkali berguna;
- Sesuaikan ukuran karakter plot dengan ukuran sampel (untuk n lebih besar, gunakan karakter plot yang lebih kecil);
- dan seterusnya.
Pertanyaan:
Saya ingin dapat merujuk siswa ke halaman web atau situs yang menjelaskan ini dan trik lain untuk secara efektif merencanakan hubungan antara dua variabel numerik, mungkin dengan contoh.
- Apakah ada halaman atau situs di internet yang melakukan pekerjaan dengan baik ini?
data-visualization
correlation
teaching
rule-of-thumb
scatterplot
Jeromy Anglim
sumber
sumber
Jawaban:
Saya tidak dapat memikirkan sumber daya daring yang hebat di luar kepala saya, tetapi bab buku yang bagus (dan dapat diunduh dengan mudah) yang menceritakan bagaimana mengeksplorasi secara visual, data multidimensial yang diatur dengan cara yang bijaksana adalah Brendan O'Connor dan Lukas Biewald's bab (peringatan: tautan langsung ke PDF) dari Beautiful Data . Bab ini sangat berguna sebagai sumber pengajaran karena memasukkan kode R ke dalam narasi.
Juga, setelah refleksi lebih lanjut, saya pikir klasik John Tukey "Some Graphic and Semigraphic Displays" (dengan mudah diposting di situs Edward Tufte) adalah pengantar visualisasi yang benar-benar menakjubkan, walaupun agak istimewa.
Untuk beberapa alasan, saya sepertinya memikirkan bab-bab buku ...
sumber
Referensi terbaru:
Kelleher dan Wagner 2011 "Sepuluh pedoman untuk visualisasi data yang efektif dalam publikasi ilmiah" memberikan seperangkat aturan yang bagus. Aturan, dengan referensi (tetapi bukan artikel lengkap) tersedia tanpa berlangganan, meskipun mahasiswa cenderung memiliki akses penuh.
Perserikatan Bangsa-Bangsa 2009 "Menjadikan Data Berarti" memberikan tinjauan yang bagus, dengan aturan dan contoh, termasuk bagian tentang 'teknologi yang muncul'.
Sumber daya yang lebih lama, tetapi relevan
SIGGGRAPH menyediakan beberapa tutorial yang bagus, meskipun tidak memiliki banyak contoh, termasuk:
Senay dan Ignatius 1999 "Aturan dan Prinsip Visualisasi Data Ilmiah"
Domik 1999 "Tutorial Visualisasi"
Ringkasan Tufte yang baik dapat ditemukan di sini:
sumber