Seperti yang ditunjukkan oleh Jimmy Lin dan Chris Dyer pada bab pertama dalam buku mereka tentang Penambangan Teks Data-Intensif dengan MapReduce , pada skala data besar, kinerja berbagai algoritma bertemu sehingga perbedaan kinerja hampir hilang. Ini berarti bahwa mengingat kumpulan data yang cukup besar, algoritma yang ingin Anda gunakan adalah salah satu yang secara komputasi lebih murah. Hanya pada skala data yang lebih kecil bahwa perbedaan kinerja antara algoritma penting.
Yang sedang berkata, buku mereka (ditautkan di atas) dan Penambangan Kumpulan Besar oleh Anand Rajaraman, Jure Leskovec, dan Jeffrey D. Ullman mungkin adalah dua buku yang ingin Anda periksa juga, terutama karena mereka berkaitan langsung dengan MapReduce untuk keperluan penambangan data.
Jika Anda memiliki akses ke cluster Hadoop, saya akan memberi Spark tampilan. https://spark.apache.org/
sumber
Tidak ada yang menyebutkan makalah berikut - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng adalah salah satu penulis)
Kertas itu sendiri adalah untuk mesin multi-core, tetapi pada dasarnya tentang menyusun kembali masalah pembelajaran mesin sehingga sesuai dengan pola pengurangan peta, dan dapat digunakan untuk sekelompok komputer. (untuk melihat mengapa itu bukan ide yang baik secara umum, Anda mungkin ingin membaca makalah ini - http://arxiv.org/pdf/1006.4990v1.pdf . Ini memiliki ikhtisar yang baik).
sumber
Scaling Up Machine Learning : pendekatan paralel dan terdistribusi adalah buku yang bagus oleh John Langford et. Al. yang membahas implementasi paralel dari algoritma yang diawasi dan tidak terawasi. Ini berbicara tentang MapReduce, ansambel pohon keputusan, paralel K-means, paralel SVM, penyebaran kepercayaan, dan AD-LDA.
https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242
sumber