Saat ini saya harus menganalisis sekitar 20 juta catatan dan membangun model prediksi. Sejauh ini saya sudah mencoba Statistica, SPSS, RapidMiner dan R. Di antara Statistica ini tampaknya paling cocok untuk berurusan dengan data mining dan antarmuka pengguna RapidMiner juga sangat berguna tetapi tampaknya bahwa Statistica, RapidMiner dan SPSS hanya cocok untuk dataset yang lebih kecil. .
Adakah yang bisa merekomendasikan alat yang bagus untuk dataset besar?
Terimakasih!
Jawaban:
Saya akan berkomentar @suncoolsu kedua: Dimensi kumpulan data Anda bukan satu-satunya kriteria yang harus mengarahkan Anda ke perangkat lunak tertentu. Misalnya, jika Anda hanya berencana untuk melakukan pengelompokan tanpa pengawasan atau menggunakan PCA, ada beberapa alat khusus yang menangani kumpulan data besar, seperti yang biasa ditemui dalam studi genom.
Sekarang, R (64 bit) menangani data yang besar cukup baik, dan Anda masih memiliki pilihan untuk menggunakan penyimpanan disk, bukan akses RAM, tapi lihat CRAN Tugas View High-Performance dan Paralel Computing dengan R . Standar GLM akan dengan mudah mengakomodasi 20.000 obs. (tapi lihat juga speedglm ) dalam waktu yang wajar, seperti yang ditunjukkan di bawah ini:
Untuk memberikan ilustrasi yang lebih konkret, saya menggunakan R untuk memproses dan menganalisis data genetik besar (800 individu x 800k SNP , di mana model statistik utama adalah GLM bertingkat dengan beberapa kovariat (2 menit); yang dimungkinkan berkat R dan efisien Kode C tersedia dalam paket snpMatrix (sebagai perbandingan, model yang sama membutuhkan waktu sekitar 8 menit menggunakan perangkat lunak C ++ khusus ( plink ). Saya juga bekerja pada studi klinis (12k pasien x 50 variabel yang menarik) dan R sesuai kebutuhan saya Akhirnya, sejauh yang saya tahu, paket lme4 adalah satu-satunya perangkat lunak yang memungkinkan untuk menyesuaikan model efek campuran dengan set data yang tidak seimbang dan besar (seperti halnya dalam penilaian pendidikan skala besar).
Stata / SE adalah perangkat lunak lain yang dapat menangani kumpulan data besar . SAS dan SPSS adalah perangkat lunak berbasis file, sehingga mereka akan menangani volume data yang besar. Tinjauan perbandingan perangkat lunak untuk datamining tersedia di Alat Penambangan Data: Yang Mana yang Terbaik untuk CRM . Untuk visualisasi, ada juga banyak pilihan; mungkin awal yang baik adalah Grafik dari dataset besar: memvisualisasikan sejuta ( ditinjau dalam JSS oleh P Murrell), dan semua utas terkait di situs ini.
sumber
Sebagian besar algoritma pada skala Apache Mahout melampaui catatan 20M, bahkan dengan data dimensi tinggi. Jika Anda hanya perlu membuat model prediksi, ada alat khusus seperti Vowpal Wabbit (http://hunch.net/~vw/) yang dapat dengan mudah menskala hingga milyaran catatan pada satu mesin.
sumber
Ada paket RHIPE (integrasi R-Hadoop). Hal ini dapat membuatnya sangat mudah (dengan pengecualian) untuk menganalisis sejumlah besar data dalam R.
sumber
Sulit untuk memberikan jawaban yang baik tanpa mengetahui model seperti apa yang Anda pikirkan.
Untuk regresi linier, saya telah berhasil menggunakan paket biglm di R.
sumber
Karena Anda sedang membangun model prediksi dari kumpulan data besar, Anda mungkin mendapat manfaat dari Google's BigQuery (versi host dari teknologi dari makalah penelitian Google tentang analisis dataset besar-besaran dengan Dremel). Anda dapat mengekspor hasil kueri sebagai CSV untuk dicerna ke dalam klasifikasi prediktif, misalnya.
BigQuery memiliki WebUI yang memungkinkan Anda menjalankan kueri dan mengekspor hasil. Versi beta (v1) dari BigQuery menampilkan klien R, dan versi produksi (v2) pada akhirnya akan memiliki klien R juga.
sumber
Kami melatih pengamatan 3,5 juta dan 44 fitur menggunakan 64-bit R pada instance EC2 dengan ram 32GB dan 4 core. Kami menggunakan hutan acak dan itu bekerja dengan baik. Perhatikan bahwa kami harus memproses / memanipulasi data sebelum pelatihan.
sumber
SAS Enterprise Miner versi 6.2 tidak akan memiliki masalah dalam menangani 20 juta pengamatan, dan beragam model yang dapat disesuaikan dengan situasi Anda. Masalah dengan SAS biasanya adalah biaya. Berikut ringkasan apa yang dapat dilakukan SAS EM : SAS EM 6.2: Apa yang Baru
sumber
Bisakah Anda melihat ScaVis ( http://jwork.org/scavis )? Saya tidak melihat 20 juta, tetapi Anda dapat mencoba memeriksanya.
sumber
RHIPE adalah solusi yang bagus, dan saya mungkin akan memilih yang ini, jika memiliki masalah ini! tetapi apakah Anda sudah mempertimbangkan NCSS? Sejauh yang saya tahu, versi terbaru 10 dapat membangun model ini. Ver lengkap. sangat mahal, tetapi pada beberapa layanan desktop jarak jauh Anda dapat menjalankan aplikasi hanya dengan biaya kecil tapi saya tidak tahu .. lebih baik memeriksanya
sumber