Dalam mengulas “ Pemodelan Prediktif Terapan ", penulis menyatakan :
Salah satu kritik yang saya miliki tentang pedagogi pembelajaran statistik (SL) adalah tidak adanya pertimbangan kinerja komputasi dalam evaluasi teknik pemodelan yang berbeda. Dengan penekanannya pada bootstrap dan validasi silang ke model tune / test, SL cukup intensif komputasi. Tambahkan ke bahwa pengambilan sampel ulang yang tertanam dalam teknik seperti mengantongi dan meningkatkan, dan Anda memiliki hantu neraka perhitungan untuk pembelajaran yang diawasi dari kumpulan data besar. Faktanya, batasan memori R memberlakukan batasan yang cukup parah pada ukuran model yang dapat disesuaikan dengan metode berkinerja terbaik seperti hutan acak. Meskipun SL melakukan pekerjaan yang baik dengan mengkalibrasi kinerja model terhadap kumpulan data kecil, tentu menyenangkan untuk memahami kinerja versus biaya komputasi untuk data yang lebih besar.
Apa kendala ingatan R, dan apakah mereka memberlakukan batasan berat pada ukuran model yang dapat disesuaikan dengan metode berkinerja terbaik seperti hutan acak ?
sumber
Jawaban:
Seperti yang ditunjukkan Konstantin, R melakukan semua perhitungannya dalam memori sistem, yaitu RAM. Oleh karena itu, kapasitas RAM adalah kendala yang sangat penting untuk operasi intensif komputasi di R. Mengatasi kendala ini, data disimpan hari ini dalam sistem HDFS, di mana data tidak dimuat ke dalam memori dan program dijalankan sebagai gantinya, program beralih ke data dan melakukan operasi, sehingga mengatasi kendala memori. RHadoop ( https://github.com/RevolutionAnalytics/RHadoop/wiki ) adalah konektor yang Anda cari.
Datang ke dampak pada algoritma yang intensif komputasi, Hutan Acak / Pohon Keputusan / metode Ensemble pada sejumlah besar data (minimal 50.000 pengamatan dalam pengalaman saya) mengambil banyak memori dan sangat lambat. Untuk mempercepat proses, paralelisasi adalah cara untuk pergi dan paralelisasi secara inheren tersedia di Hadoop! Di situlah, Hadoop sangat efisien.
Jadi, jika Anda akan menggunakan metode ensemble yang komputasi intensif dan lambat, Anda ingin mencoba pada sistem HDFS yang memberikan peningkatan kinerja yang cukup besar.
sumber
R melakukan semua perhitungan dalam memori sehingga Anda tidak dapat melakukan operasi pada dataset yang lebih besar dari jumlah RAM yang tersedia. Namun ada beberapa perpustakaan yang memungkinkan pemrosesan bigdata menggunakan R dan salah satu perpustakaan populer untuk pemrosesan bigdata seperti Hadoop.
sumber
Kritik ini tidak lagi dibenarkan:
Meskipun benar bahwa sebagian besar pustaka R standar dan paling dihormati dibatasi untuk perhitungan dalam memori, ada semakin banyak pustaka khusus untuk menangani data yang tidak sesuai dengan memori.
Misalnya, untuk hutan acak pada dataset besar, Anda memiliki perpustakaan
bigrf
. Info lebih lanjut di sini: http://cran.r-project.org/web/packages/bigrf/Bidang pertumbuhan lain adalah keterhubungan R dengan lingkungan data besar seperti hadoop, yang membuka kemungkinan dunia lain.
sumber