Saya mencoba memahami bagaimana semua komponen "data besar" bermain bersama dalam kasus penggunaan dunia nyata, misalnya hadoop, monogodb / nosql, storm, kafka, ... Saya tahu bahwa ini adalah cukup banyak alat yang digunakan untuk berbagai jenis, tetapi saya ingin mengetahui lebih banyak tentang interaksi mereka dalam aplikasi, misalnya mesin pembelajaran untuk aplikasi, webapp, toko online.
Saya memiliki pengunjung / sesi, data transaksi dll dan menyimpannya; tetapi jika saya ingin membuat rekomendasi dengan cepat, saya tidak dapat menjalankan peta lambat / mengurangi pekerjaan untuk itu pada beberapa basis data besar log yang saya miliki. Di mana saya bisa belajar lebih banyak tentang aspek infrastruktur? Saya pikir saya bisa menggunakan sebagian besar alat sendiri, tetapi menghubungkannya satu sama lain tampaknya menjadi seni tersendiri.
Apakah ada contoh / kasus penggunaan publik dll tersedia? Saya mengerti bahwa masing-masing pipa sangat bergantung pada use case dan pengguna, tetapi hanya contoh mungkin akan sangat berguna bagi saya.
Jawaban:
Untuk memahami berbagai cara pembelajaran mesin dapat diintegrasikan ke dalam aplikasi produksi, saya pikir akan berguna untuk melihat proyek open source dan tulisan / posting blog dari perusahaan yang menggambarkan infrastruktur mereka.
Tema umum yang dimiliki sistem ini adalah pemisahan pelatihan model dari aplikasi model. Dalam sistem produksi, aplikasi model harus cepat, dalam urutan 100-an ms, tetapi ada lebih banyak kebebasan dalam seberapa sering parameter model yang dipasang (atau setara) perlu diperbarui.
Orang-orang menggunakan berbagai solusi untuk pelatihan dan penyebaran model:
Bangun model, lalu ekspor dan gunakan dengan PMML
Bangun model di MapReduce dan akses nilai dalam sistem khusus
Gunakan sistem online yang memungkinkan untuk terus memperbarui parameter model.
sumber
Salah satu penjelasan yang paling terperinci dan jelas tentang pengaturan pipa analitik yang kompleks adalah dari orang-orang di Twitch .
Mereka memberikan motivasi terinci dari masing-masing pilihan arsitektur untuk pengumpulan, transportasi, koordinasi, pemrosesan, penyimpanan, dan pencarian data mereka.
Bacaan yang menarik! Temukan di sini dan di sini .
sumber
Airbnb dan Etsy keduanya baru-baru ini memposting informasi terperinci tentang alur kerja mereka.
sumber
Bab 1 Ilmu Data Praktis dengan R ( http://www.manning.com/zumel/ ) memiliki gangguan besar dalam proses ilmu data, termasuk peran tim dan bagaimana kaitannya dengan tugas tertentu. Buku ini mengikuti model-model yang ditetapkan dalam bab ini dengan mereferensikan tahap / personel yang mana dari tugas ini atau itu yang akan dilakukan oleh.
sumber