Sambil mempersiapkan pembicaraan yang akan saya berikan segera, saya baru-baru ini mulai menggali menjadi dua alat utama (Gratis) untuk visualisasi data interaktif: GGobi dan mondrian - keduanya menawarkan berbagai kemampuan yang hebat (bahkan jika mereka agak buggy).
Saya ingin meminta bantuan Anda dalam mengartikulasikan (baik untuk diri saya sendiri, dan untuk audiens saya di masa depan) Kapan sebaiknya menggunakan plot interaktif? Baik untuk eksplorasi data (untuk diri kita sendiri) dan penyajian data (untuk "klien")?
Untuk saat menjelaskan data ke klien, saya bisa melihat nilai animasi untuk:
- Menggunakan "mengidentifikasi / menghubungkan / menyikat" untuk melihat titik data dalam grafik adalah apa.
- Menyajikan analisis sensitivitas data (misalnya: "jika kita menghapus titik ini, inilah yang akan kita dapatkan)
- Menampilkan efek berbagai kelompok dalam data (mis: "mari kita lihat grafik kami untuk laki-laki dan sekarang untuk perempuan")
- Menampilkan efek waktu (atau usia, atau secara umum, menawarkan dimensi lain pada presentasi)
Untuk saat menjelajahi data sendiri, saya dapat melihat nilai mengidentifikasi / menghubungkan / menyikat ketika menjelajahi pencilan dalam dataset yang sedang kami kerjakan.
Tapi selain dua contoh ini, saya tidak yakin apa yang praktis digunakan menggunakan teknik ini. Khusus untuk eksplorasi data kami sendiri!
Dapat dikatakan bahwa bagian interaktif baik untuk mengeksplorasi (Misalnya) perilaku yang berbeda dari kelompok / kelompok yang berbeda dalam data. Tetapi ketika (dalam prakteknya) saya mendekati situasi seperti itu, apa yang saya cenderung lakukan adalah menjalankan prosedur statistik yang relevan (dan tes post-hoc) - dan yang saya temukan signifikan, saya kemudian akan memplot dengan warna yang dengan jelas membagi data ke data. kelompok yang relevan. Dari apa yang saya lihat, ini adalah pendekatan yang lebih aman kemudian "bertanya-tanya" data (yang dapat dengan mudah menyebabkan pengerukan data (apakah ruang lingkup beberapa perbandingan yang diperlukan untuk koreksi bahkan tidak jelas).
Saya akan sangat senang membaca pengalaman / pemikiran Anda tentang masalah ini.
(pertanyaan ini bisa berupa wiki - meskipun tidak subyektif dan jawaban yang dipikirkan dengan baik akan dengan senang hati memenangkan tanda "jawab" saya :))
Jawaban:
Selain menghubungkan data kuantitatif atau kualitatif dengan pola spasial, seperti yang diilustrasikan oleh @whuber, saya ingin menyebutkan penggunaan EDA, dengan menyikat dan berbagai plot menghubungkan bersama, untuk analisis data longitudinal dan dimensi tinggi .
Keduanya dibahas dalam buku yang sangat baik, Interaktif dan Grafik Dinamis untuk Analisis Data Dengan R dan GGobi , oleh Dianne Cook dan Deborah F. Swayne (Springer UseR !, 2007), yang pasti Anda ketahui. Para penulis memiliki diskusi yang bagus tentang EDA di Bab 1, membenarkan perlunya EDA untuk "memaksa yang tak terduga pada kita", mengutip John Tukey (hal. 13): Penggunaan tampilan interaktif dan dinamis bukanlah pengintaian data , atau data pendahuluan. inspeksi (misalnya, ringkasan data yang murni grafis), tetapi hanya dilihat sebagai penyelidikan interaktif dari data yang mungkin mendahului atau melengkapi pemodelan statistik murni berbasis hipotesis.
Menggunakan GGobi bersama dengan antarmuka R-nya ( rggobi ) juga memecahkan masalah bagaimana menghasilkan grafik statis untuk laporan perantara atau publikasi akhir, bahkan dengan Projection Pursuit (hal. 26-34), berkat paket DescribeDisplay atau ggplot2 .
Pada baris yang sama, Michael Friendly telah lama menganjurkan penggunaan visualisasi data dalam Analisis Data Kategorikal, yang sebagian besar telah dicontohkan dalam paket vcd, tetapi juga dalam paket vcdExtra yang lebih baru (termasuk yaitu dinamis, melalui paket rgl ), yang bertindak sebagai perekat antara paket vcd dan gnm untuk memperluas model log-linear. Dia baru-baru memberikan ringkasan yang bagus dari pekerjaan yang selama Carme 6 konferensi, Kemajuan dalam Visualisasi Categorical data Menggunakan vcd, GNM dan Paket vcdExtra di R .
Oleh karena itu, EDA juga dapat dianggap sebagai memberikan penjelasan visual dari data (dalam arti bahwa hal itu dapat menjelaskan pola yang tidak terduga dalam data yang diamati), sebelum pendekatan pemodelan statistik murni, atau secara paralel dengan itu. Artinya, EDA tidak hanya menyediakan cara yang berguna untuk mempelajari struktur internal data yang ada, tetapi juga dapat membantu untuk memperbaiki dan / atau merangkum model statistik yang diterapkan padanya. Pada dasarnya, apa yang memungkinkan untuk dilakukan oleh banyak biplots . Meskipun mereka bukan teknik analisis multidimensi semata , mereka adalah alat untuk memvisualisasikan hasil dari analisis multidimensi (dengan memberikan perkiraanhubungan ketika mempertimbangkan semua individu bersama, atau semua variabel bersama, atau keduanya). Skor faktor dapat digunakan dalam pemodelan berikutnya sebagai pengganti metrik asli untuk mengurangi dimensi atau untuk menyediakan tingkat representasi menengah.
Sidenote
Beresiko menjadi kuno, saya masih menggunakan
xlispstat
( Luke Tierney ) dari waktu ke waktu. Ini memiliki fungsi sederhana namun efektif untuk tampilan interaktif, saat ini tidak tersedia dalam grafis R dasar. Saya tidak mengetahui kemampuan serupa di Clojure + Incanter (+ Processing).sumber
Penghubungan dinamis grafik adalah alami dan efektif untuk analisis data spasial eksplorasi , atau ESDA . Sistem ESDA biasanya menghubungkan satu atau lebih peta kuantitatif (seperti peta choropleth ) dengan tampilan tabular dan grafik statistik dari data yang mendasarinya. Beberapa kemampuan seperti itu telah menjadi bagian dari beberapa sistem GIS desktop selama sekitar 15 tahun, terutama ArcView 3 (produk komersial yang dihentikan). Perangkat lunak GeoDa gratis menyediakan beberapa kemampuan ini dalam lingkungan yang dirancang untuk eksplorasi data spasial dan analisis statistik. Itu kikuk, dengan antarmuka yang istimewa dan grafik yang tidak dipoles, tetapi cukup bebas bug.
Penggunaan EDA ini menghindari keberatan bahwa pengujian statistik mungkin lebih baik daripada eksplorasi interaktif karena dalam banyak situasi (sebagian besar?) Tidak ada model statistik yang jelas, tidak ada uji statistik yang jelas (atau bahkan tepat), dan pengujian hipotesis seringkali tidak relevan: orang perlu melihat apa yang terjadi , di mana itu terjadi , dan untuk mengamati hubungan statistik antara variabel dalam konteks spasial. Tidak semua analisis data, atau bahkan harus terdiri dari, prosedur formal!
sumber
Bagi saya visualisasi interaktif hanya berguna untuk eksplorasi saya sendiri, atau ketika bekerja dengan klien yang sangat praktis. Ketika berhadapan dengan presentasi akhir, saya lebih suka memilih grafik statis yang paling tepat. Kalau tidak, klien bisa benar-benar terganggu oleh faktor jagoan.
Manfaat terbesar yang saya dapatkan dari itu adalah tingkat kecepatan yang membebaskan saya untuk memeriksa jauh lebih banyak daripada yang saya miliki jika saya berhenti untuk memprogram solusi. JMP adalah salah satu alat favorit saya karena ini mengintegrasikan banyak hal yang saya inginkan ke dalam satu antarmuka. Saya pikir kebanyakan orang yang merupakan programmer statistik yang baik mencoba sesuatu seperti JMP (atau GGobi, dll) untuk periode yang terlalu singkat untuk benar-benar menjadi ahli. JMP khususnya akan memberi Anda kesan Anda tahu itu hanya dengan melihat-lihat menu. Namun, bekerja melalui manual benar-benar diperlukan untuk mengungkap semua kekuatannya.
Anda menyebutkan kekhawatiran utama saya tentang tingkat kecepatan ini: Anda akhirnya sama sekali tidak tahu apa arti nilai-p Anda. Hanya dalam beberapa menit Anda dapat memeriksa ratusan hubungan secara visual. Melakukan pengujian hipotesis setelah semua itu benar-benar menyesatkan, tetapi saya melihat orang melakukan itu sepanjang waktu.
Fitur yang saya sukai di GGobi adalah pengejaran proyeksi, di mana Anda menentukan jenis pola apa yang Anda cari dalam ruang dimensi tinggi dan kemudian Anda duduk dan menontonnya "mengejar" tujuan itu. Barang bagus!
sumber