Saya tahu bahwa R tidak terlalu membantu untuk menganalisis dataset besar mengingat R memuat semua data dalam memori sedangkan sesuatu seperti SAS melakukan analisis sekuensial. Yang mengatakan, ada paket seperti bigmemory yang memungkinkan pengguna untuk melakukan analisis data besar (analisis statistik) lebih efisien di R.
Saya ingin tahu, terlepas dari semua informasi teoretis, apakah ada yang menggunakan / menggunakan R untuk menganalisis kumpulan data besar di lingkungan perusahaan dan apa masalah khas yang bisa muncul. Dengan dataset besar saya mengacu pada dataset yang berukuran ~ 200 GB. Juga, setiap pemikiran tentang contoh kehidupan nyata dari migrasi dari SAS ke R dalam kasus penggunaan seperti itu akan sangat membantu.
r
sas
large-data
xbsd
sumber
sumber
ff
danbigmemory
. @ Glen_b, apakah menurut Anda R baru (dengan mesin 64 bit) akan bersaing dengan SAS (dalam hal ukuran set data yang mungkin)?Jawaban:
Saya telah melakukan pekerjaan pada set data yang sangat besar di R, dan tidak punya masalah.
Ada beberapa pendekatan yang berhasil, tetapi paradigma dasar saya adalah bahwa saya menemukan cara untuk memproses data "secara berurutan". Jelas SAS memiliki kendala memori dasar yang sama jika Anda menggunakannya di mesin yang sama, menggunakan R hanya sedikit lebih DIY.
Dalam setiap kasus yang pernah saya temui saya baik melakukan analisis pada beberapa jenis ringkasan data, atau saya melakukan analisis pada potongan data dan kemudian merangkum hasilnya. Apa pun itu mudah dicapai dalam R.
Cukup mudah untuk membuat ringkasan jika Anda memiliki data terstruktur dengan cara tertentu (benar-benar dengan cara apa pun). Hadoop adalah alat terkemuka untuk membuat ringkasan, tetapi mudah untuk melakukan pemrosesan batch pada file Data R, dan jika data Anda akan sesuai pada perangkat penyimpanan lokal Anda, itu juga lebih cepat untuk memproses batch dengan cara itu (dalam hal waktu pemrosesan dan waktu pengembangan).
Analisis batch Anda juga cukup mudah dengan menggunakan chunk juga menggunakan proses pemikiran yang sama.
Jika Anda benar-benar ingin melakukan model linear langsung pada set data raksasa, maka saya pikir bigmory adalah jawaban Anda, seperti yang disarankan oleh Stéphane Laurent.
Saya tidak benar-benar berpikir ada satu "jawaban" untuk "bagaimana Anda menangani kendala memori" atau "pindah ke platform baru", tetapi ini adalah dua sen saya yang panjang lebar.
sumber
Saya tidak memiliki bagian analitik revolusioner tetapi ada blog tentang hal ini
http://www.r-bloggers.com/allstate-compares-sas-hadoop-and-r-for-big-data-insurance-models/
Menggunakan hadoop (komputasi terdistribusi) untuk memecahkan masalah memori ini.
sumber