Melalui presentasi dan materi Summingbird oleh Twitter, salah satu alasan yang disebutkan untuk menggunakan cluster Storm dan Hadoop bersama-sama di Summingbird adalah bahwa pemrosesan melalui Storm menghasilkan cascading of error. Untuk menghindari cascading kesalahan dan akumulasi itu, cluster Hadoop digunakan untuk mengolah data dan membuang hasil Storm setelah data yang sama diproses oleh Hadoop.
Apa alasan terjadinya akumulasi kesalahan ini? dan mengapa itu tidak ada di Hadoop? Karena saya belum bekerja dengan Storm, saya tidak tahu alasannya. Apakah itu karena Storm menggunakan beberapa algoritma perkiraan untuk memproses data untuk memprosesnya secara real time? atau penyebabnya sesuatu yang lain?
sumber