Kesalahan Bertingkat dalam Badai Apache

Melalui presentasi dan materi Summingbird oleh Twitter, salah satu alasan yang disebutkan untuk menggunakan cluster Storm dan Hadoop bersama-sama di Summingbird adalah bahwa pemrosesan melalui Storm menghasilkan cascading of error. Untuk menghindari cascading kesalahan dan akumulasi itu, cluster Hadoop digunakan untuk mengolah data dan membuang hasil Storm setelah data yang sama diproses oleh Hadoop.

Apa alasan terjadinya akumulasi kesalahan ini? dan mengapa itu tidak ada di Hadoop? Karena saya belum bekerja dengan Storm, saya tidak tahu alasannya. Apakah itu karena Storm menggunakan beberapa algoritma perkiraan untuk memproses data untuk memprosesnya secara real time? atau penyebabnya sesuatu yang lain?

bigdata apache-hadoop mbbce
sumber

Jawaban:

Twitter menggunakan Storm untuk pemrosesan data real-time. Masalah dapat terjadi dengan data waktu nyata. Sistem mungkin turun. Data mungkin diproses secara tidak sengaja dua kali. Koneksi jaringan bisa terputus. Banyak yang bisa terjadi dalam sistem waktu nyata.

Mereka menggunakan hadoop untuk memproses data historis dengan andal. Saya tidak tahu secara spesifik, tetapi misalnya, mendapatkan informasi yang solid dari log agregat mungkin lebih dapat diandalkan daripada melampirkan ke aliran.

Jika mereka hanya mengandalkan Storm untuk semuanya - Storm akan memiliki masalah karena sifat menyediakan informasi real-time pada skala. Jika mereka mengandalkan hadoop untuk semuanya, ada banyak latensi yang terlibat. Menggabungkan keduanya dengan Summingbird adalah langkah logis berikutnya.

Steve Kallestad
sumber