Dalam upaya saya untuk memerangi kekacauan spreadsheet, saya sering evangelis dalam mendorong alat yang lebih kuat seperti perangkat lunak statistik yang benar (R, Stata, dan sejenisnya). Baru-baru ini, saya ditantang pada pandangan ini oleh seseorang yang menyatakan bahwa mereka tidak akan belajar memprogram. Saya ingin memberi mereka alat analisis data yang tidak memerlukan pemrograman (tetapi idealnya yang akan diperluas ke pemrograman jika mereka memutuskan untuk mencelupkan kaki ke dalam air nanti). Paket apa yang tersedia untuk eksplorasi data yang dapat saya rekomendasikan dengan wajah lurus?
data-visualization
software
Ari B. Friedman
sumber
sumber
Jawaban:
Saya memprogram dengan Python untuk 95% pekerjaan saya dan sisanya di R atau MATLAB atau IDL / PV-WAVE (dan segera SAS). Tapi, saya berada di lingkungan di mana waktu-ke-hasil sering merupakan pendorong besar analisis yang dipilih dan jadi saya sering menggunakan alat point-and-klik juga. Dalam pengalaman saya, tidak ada alat GUI tunggal, kuat, fleksibel untuk melakukan analitik, seperti tidak ada satu bahasa. Saya biasanya mengumpulkan koleksi perangkat lunak gratis dan komersial berikut
Saya belum pernah menggunakan JMP, Stata, Statistica, dll, tetapi saya ingin.
Menggunakan alat-alat ini melibatkan mempelajari GUI yang berbeda dan beberapa abstraksi pemodelan, yang merupakan rasa sakit pada saat itu tetapi mari saya dapatkan hasil ad hoc lebih cepat nanti. Saya berada di kapal yang sama dengan OP karena sementara sebagian besar orang yang bekerja dengan saya benar-benar pintar, mereka tidak peduli untuk belajar bahasa, atau beberapa GUI dan terminologi khusus aplikasi. Jadi, saya telah mengundurkan diri untuk menerima bahwa Excel mengendalikan 90% analisis di dunia bisnis. Oleh karena itu, saya ingin menggunakan hal-hal seperti pyinex untuk memungkinkan saya memberikan analisis yang lebih baik ke lapisan presentasi Excel yang sama seperti yang diharapkan oleh sebagian besar rekan kerja saya.
UPDATE: Melanjutkan tema Do-modelling-with-programming-but-make-Excel-the-presentation-layer, saya baru saja menemukan situs web pria ini yang menawarkan grafis gaya Tufte untuk disematkan dalam sel Excel. Cukup luar biasa dan gratis!
sumber
Sejauh menyangkut analisis data eksplorasi (mungkin interaktif), saya akan menyarankan untuk melihat pada:
Ketiganya menerima data dalam
arff
ataucsv
format.Dalam pandangan saya, Stata tidak membutuhkan begitu banyak keahlian pemrograman. Ini bahkan merupakan bagian dari daya tariknya, pada kenyataannya: Sebagian besar analisis dasar dapat dilakukan dengan tindakan pengguna titik-dan-klik, dengan kotak dialog untuk menyesuaikan parameter tertentu, misalnya, untuk prediksi dalam model linier. Hal yang sama berlaku, meskipun pada tingkat lebih rendah, ke R ketika Anda menggunakan GUI eksternal seperti Rcmdr , Deducer, dll. Seperti yang dikatakan oleh @ gsk3.
sumber
Beberapa orang berpikir pemrograman hanya dengan memasukkan pernyataan baris perintah. Pada titik itu, mungkin Anda sedikit tersesat dalam menyemangati mereka. Namun, jika mereka sudah menggunakan spreadsheet maka mereka harus memasukkan formula. Ini mirip dengan pernyataan perintah baris. Jika mereka benar-benar berarti mereka tidak ingin melakukan pemrograman dalam arti analisis logis dan otomatis maka Anda dapat memberi tahu mereka bahwa mereka masih dapat melakukan analisis dalam R atau Stata tanpa pemrograman sama sekali.
Jika mereka dapat melakukan statistik di spreadsheet ... semua yang ingin mereka lakukan ... maka semua analisis statistik yang ingin mereka selesaikan dapat dilakukan tanpa 'pemrograman' di R atau Stata juga. Mereka dapat mengatur dan mengatur data dalam spreadsheet dan kemudian hanya mengekspornya sebagai teks. Kemudian analisis dilakukan tanpa pemrograman sama sekali.
Begitulah cara saya kadang-kadang melakukan intro ke R. Tidak diperlukan pemrograman untuk melakukan analisis data yang dapat Anda lakukan dalam spreadsheet.
Jika Anda membuat mereka ketagihan dengan cara itu maka cukup masukkan ikan secara perlahan ... :) Dalam beberapa tahun, pujilah mereka betapa hebatnya mereka menjadi programmer.
Anda mungkin juga ingin menunjukkan dokumen ini kepada kolega Anda atau setidaknya membacanya sendiri untuk mendapatkan poin Anda dengan lebih baik.
sumber
Saya akan memberikan nada di sini untuk JMP. Saya punya beberapa alasan mengapa ini adalah alat eksplorasi data non-pemrograman pilihan saya:
sumber
Saya dapat merekomendasikan Tableau sebagai alat yang baik untuk eksplorasi dan visualisasi data, hanya karena berbagai cara Anda dapat menjelajahi dan melihat data, hanya dengan menyeret dan menjatuhkan. Grafiknya cukup tajam dan Anda dapat dengan mudah menghasilkan ke PDF untuk keperluan presentasi. Jika mau, Anda dapat memperluasnya dengan beberapa "pemrograman". Saya secara teratur menggunakan alat ini bersama dengan "R" dan SAS dan mereka semua bekerja bersama dengan baik.
sumber
Seperti yang dikatakan John, eksplorasi data tidak memerlukan banyak pemrograman dalam R. Berikut adalah daftar perintah eksplorasi data yang dapat Anda berikan kepada orang-orang. (Saya baru saja membuat ini; Anda pasti bisa mengembangkannya.)
Mengekspor data dari paket apa pun yang ada. (Mengekspor data numerik tanpa tanda kutip adalah hal yang mudah.) Kemudian baca data dalam R.
Buat meja.
Biarkan R menebak jenis grafik apa yang memberi Anda. Terkadang bekerja dengan sangat baik.
Sekelompok fungsi plot tertentu bekerja cukup sederhana pada variabel tunggal.
Mengambil himpunan bagian
Sintaks seperti SQL jika orang terbiasa dengan itu (lebih lanjut di sini )
PCA (Anda tentu saja memiliki lebih dari dua variabel.)
sumber
Ini lebih merupakan ratapan daripada jawaban ...
Perangkat lunak terbaik yang pernah saya lihat untuk ini adalah Arc , yang dibangun di atas Xlisp-Stat. Ini adalah perangkat lunak yang luar biasa untuk eksplorasi data dengan banyak grafis interaktif yang terintegrasi, serta banyak kemampuan inferensi statistik. Menurut pendapat saya, tidak ada hal lain yang mendekati kemudahan penggunaannya untuk eksplorasi data dan kemampuan untuk memperluasnya lebih jauh dengan pemrograman Lisp. Menurut pendapat saya, interaktivitas dalam R baru saja mulai dapat digunakan dengan cara-cara seperti Arc, sepuluh tahun kemudian. Dan sejauh yang saya tahu, belum ada yang menggunakan kemampuan ini untuk membangun antarmuka interaktif yang sedekat Arc.
Sayangnya, itu tidak pernah benar-benar menarik perhatian sehingga pengembang sejak hampir semua beralih ke bekerja di R; ini terakhir diperbarui pada bulan Juli 2004. Versi PC dan Linux / Unix masih berfungsi dan mungkin patut dicoba, tergantung pada kebutuhan Anda; untuk Mac, pilihan terbaik adalah mencoba versi Linux / Unix di bawah X11, saya telah membuatnya bekerja pada beberapa sistem dengan cara itu. Versi Mac yang disebutkan di situs hanya berfungsi pada Mac "Klasik".
Saya juga akan menyebutkan secara singkat Mondrian , yang saya hanya coba sebentar, tetapi tampaknya memiliki interaktivitas grafis yang hebat untuk eksplorasi data, meskipun (seingat saya) tidak ada cara mudah untuk memperluas kemampuan atau melakukan inferensi statistik.
sumber
Sebuah sistem perangkat lunak baru yang terlihat menjanjikan untuk tujuan ini adalah Deducer , dibangun di atas R. Sayangnya, karena baru, saya menduga itu belum mencakup luasnya pertanyaan yang mungkin ditanyakan orang, tetapi tidak sesuai dengan kebutuhan. Kriteria air untuk memimpin orang menuju paket yang benar jika mereka memutuskan nanti.
Saya juga menggunakan JMP di masa lalu, yang memiliki interaktivitas yang bagus untuk itu. Saya khawatir beberapa antarmuka mungkin terlalu rumit untuk tujuan ini. Dan ini tidak bebas, yang membuat sulit bagi pengungsi spreadsheet potensial untuk mencoba sesuka hati.
Ada juga Rattle yang terlihat agak menjanjikan.
sumber
Untuk mengeksplorasi data apa yang mengandung dan membersihkannya, Google Refine sebelumnya, sekarang Open Refine , adalah GUI yang cukup bagus. Ini jauh lebih kuat untuk persiapan dan pembersihan daripada sesuatu seperti Excel. Kemudian beralih ke sesuatu seperti R-Commander untuk analisis Anda.
sumber
Siapa pun yang menjawab R, atau semua itu "GUI" tidak membaca pertanyaan.
Ada program yang dirancang khusus untuk ini dan itu disebut JMP. Ya, itu mahal, meskipun memiliki uji coba gratis, dan sangat murah untuk mahasiswa atau staf perguruan tinggi (seperti $ 50 murah).
Ada juga RapidMiner, yang merupakan GUI berbasis alur kerja untuk penambangan data dan analisis statistik. Ini gratis dan open source.
sumber
Nah, alat khusus ini populer di industri saya (meskipun tidak khusus untuk industri berdasarkan desain): http://www.umetrics.com/simca
Ini memungkinkan Anda untuk melakukan analisis multivariat tipe variabel laten (PCA dan PLS), dan itu mencakup semua plot interpretasi / kalkulasi dan alat interogasi yang menyertainya seperti plot kontribusi, plot kepentingan variabel, perhitungan Q2 dll.
Ini sering digunakan pada dataset industri berdimensi tinggi (dan sering berkorelasi tinggi / collinear) di mana metode tipe OLS / MLR tidak cocok (mis. Info dari sensor sensor, info log, dll.).
Ini beroperasi di lingkungan GUI sepenuhnya, dan pengguna tidak harus menulis satu baris kode pun. Sayangnya itu tidak gratis, dan tidak dapat diperpanjang melalui pemrograman.
sumber
Menurut pendapat saya, jika Anda tidak membuat kode untuk tes sendiri, Anda cenderung mengalami kesalahan dan kesalahpahaman tentang hasil.
Saya pikir Anda harus merekomendasikan mereka untuk mempekerjakan ahli statistik yang memiliki keterampilan komputer.
Jika ingin selalu melakukan hal yang sama, maka memang Anda bisa menggunakan alat kecil (blackbox) yang akan melakukan hal-hal tersebut. Tapi saya tidak yakin ini masih disebut eksplorasi data.
sumber
Saya akan merekomendasikan paket R John Fox yang disebut komandan R:
http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/
Ini menciptakan antarmuka pengguna yang mirip dengan SPSS (atau sejenisnya) yang bagus untuk pemula dan tidak mengharuskan pengguna untuk memasukkan kode apa pun sama sekali. Itu semua dilakukan melalui kotak drop-down (Anda bahkan dapat meminimalkan konsol R saat bekerja).
Bagi saya, manfaat dari paket ini adalah Anda dapat memanfaatkan semua kemampuan komputasi R yang hebat sambil memiliki antarmuka pengguna yang sepenuhnya operasional untuk pemula.
sumber
Alat lain yang bermanfaat, meskipun hanya untuk Windows, adalah Spotfire - Saya merasa cukup berguna untuk dengan cepat melihat berbagai histogram dan plot pencar untuk variabel tunggal dan berpasangan. Alat penelitian yang membantu Anda membuat peringkat variabel tunggal dan juga pasangan berdasarkan statistik sederhana - Hierarchical Clustering Explorer dari HCIL. Ini bagus untuk menemukan variabel / pasangan variabel yang paling menarik.
sumber