Saya sedang mengerjakan proyek yang melibatkan 14 variabel dan 345.000 pengamatan untuk data perumahan (hal-hal seperti tahun dibangun, rekaman persegi, harga jual, wilayah tempat tinggal, dll). Saya prihatin dengan mencoba menemukan teknik grafis yang baik dan perpustakaan R yang berisi teknik merencanakan yang bagus.
Saya sudah melihat apa yang di ggplot dan kisi akan bekerja dengan baik, dan saya berpikir untuk membuat plot biola untuk beberapa variabel numerik saya.
Paket apa yang akan direkomendasikan orang untuk menampilkan sejumlah besar variabel numerik atau tipe-diketik dengan cara yang jelas, dipoles, dan yang paling penting, ringkas?
r
data-visualization
large-data
eda
Christopher Aden
sumber
sumber
Jawaban:
"Grafik" terbaik begitu jelas hingga belum ada yang menyebutkannya: buat peta. Data perumahan tergantung secara mendasar pada lokasi spasial (menurut gergaji tua tentang real estat), sehingga hal pertama yang harus dilakukan adalah membuat peta terperinci yang jelas dari setiap variabel. Untuk melakukan ini dengan baik dengan sepertiga dari satu juta poin benar-benar membutuhkan GIS berkekuatan industri, yang dapat mempersingkat proses. Setelah itu masuk akal untuk melanjutkan dan membuat kemungkinan plot dan boxplots untuk mengeksplorasi distribusi univariat, dan untuk merencanakan matriks sebar dan berkeliaran di boxplate skematik, dll, untuk mengeksplorasi dependensi - tetapi peta akan segera menyarankan apa yang harus dijelajahi, bagaimana memodelkan hubungan data, dan cara memecah data secara geografis menjadi himpunan bagian yang berarti.
sumber
ggplot2
(terutama jika Anda tidak perlu menggambar batas negara), had.co.nz/ggplot2/coord_map.html . Jika tidak,maps
,gmaps
lebih baik. Ada jugaGeoXp
dan antarmuka R ke GRASS. BTW, Mondrian memiliki plugin untuk data geografis :)lattice
'slevelplot
dancontourplot
. Paketfields
memiliki beberapa fitur bagus, termasukquiltplot
yang bagus jika data Anda tidak sepenuhnya di grid. Ini juga memiliki fungsi spline pelat tipis yang bagusTps
untuk memuluskan data non-grid ke jaringan. Mengenai perangkat lunak SIG khusus, entah bagaimana GRASS tidak pernah masuk akal bagi saya, saya lebih suka QGIS.Saya akan merekomendasikan melihat GGobi , yang juga memiliki antarmuka R, setidaknya untuk tujuan eksplorasi. Ini memiliki sejumlah tampilan grafis yang sangat berguna untuk berurusan dengan sejumlah besar pengamatan dan variabel dan untuk menghubungkannya bersama-sama. Anda mungkin ingin memulai dengan menonton beberapa video di bawah bagian "Tonton demo" di halaman Learn GGobi .
Memperbarui
Tautan ke alat Hadley Wickham untuk GGobi, seperti yang disarankan oleh chl dalam komentar:
sumber
DescribeDisplay
danclusterfly
.Saya merasa Anda benar-benar mengajukan dua pertanyaan: 1) jenis visualisasi apa yang digunakan dan 2) paket R apa yang bisa menghasilkannya.
Dalam hal jenis grafik apa yang akan digunakan, ada banyak, dan itu tergantung pada kebutuhan Anda (misalnya: jenis variabel - numerik, faktor, geografis dll, dan jenis koneksi yang Anda tertarik untuk ditampilkan):
Sekarang tentang bagaimana melakukannya. Satu masalah dengan banyak titik data adalah waktu sampai plot dibuat. ggplot2, iplots, ggobi tidak terlalu bagus untuk terlalu banyak titik data (setidaknya dari pengalaman saya). Dalam hal ini Anda mungkin ingin fokus pada fasilitas grafis berbasis R, atau sampel data Anda dan pada itu untuk menggunakan semua alat lainnya. Atau Anda dapat berharap bahwa orang-orang yang mengembangkan iplots extreme (atau Acinonyx ) akan mencapai tahap rilis lanjutan.
sumber
rflowcyt
tautannya dan Acinonyx.rflowcyt
telah ditinggalkan dengan rilis Bioconductor baru-baru ini, sekarang direkomendasikan untuk digunakanflowViz
. Pokoknya, keduanya mengandalkanlattice
.Mondrian menyediakan fitur-fitur interaktif dan menangani set data yang cukup besar (meskipun di Jawa).
Paraview termasuk 2D / 3D yaitu. fitur.
sumber
iplots
dikutip oleh @Tal. Tentang Paraview, Anda memiliki opsi untuk menyimpan tangkapan layar yaitu Anda.DescribeDisplay
adalah cara untuk mengekspor visualisasi dinamis dari GGobi, cran.r-project.org/web/packages/DescribeDisplay/index.html .Saya ingin menyampaikan kepada Anda, Koordinat Paralel: Geometri Multidimensi Visual dan Penerapannya , yang berisi terobosan dan aplikasi terbaru di lapangan.
Buku itu dipuji oleh Stephen Hawking antara lain. Permukaan dijelaskan (menggunakan dualitas) oleh vektor normal pada titik-titiknya. Ini berisi aplikasi untuk Kontrol Lalu Lintas Udara (Penghindaran Tabrakan Otomatis - 3 Paten AS), Penambangan Data Multivarian (pada dataset nyata, beberapa dengan ratusan variabel), Optimalisasi Multi-Tujuan, Kontrol Proses, Perawatan Intensif Layar Pintar, Keamanan, Visualisasi Jaringan dan baru-baru ini Besar Data.
sumber