Saya mendengar tentang banyak alat / kerangka kerja untuk membantu orang memproses data mereka (lingkungan data besar).
Satu disebut Hadoop dan yang lainnya adalah konsep noSQL. Apa perbedaan titik pemrosesan?
Apakah mereka saling melengkapi?
nosql
tools
processing
apache-hadoop
рüффп
sumber
sumber
Jawaban:
Hadoop bukan database , hadoop adalah seluruh ekosistem.
Kebanyakan orang akan merujuk pengurangan pekerjaan saat berbicara tentang hadoop. Pekerjaan mapreduce membagi dataset besar dalam beberapa potongan kecil data dan menyebarkannya ke sekelompok node untuk melanjutkan. Pada akhirnya hasil dari setiap node akan disatukan lagi sebagai satu dataset.
Mari kita asumsikan Anda memuat ke hadoop satu set
<String, Integer>
dengan populasi beberapa lingkungan di dalam kota dan Anda ingin mendapatkan populasi rata-rata di seluruh lingkungan setiap kota (gambar 1).Gambar 1
Sekarang hadoop pertama-tama akan memetakan setiap nilai dengan menggunakan tombol (gambar 2)
Gambar 2
Setelah pemetaan itu akan mengurangi nilai setiap kunci ke nilai baru (dalam contoh ini rata-rata di atas nilai yang ditetapkan masing-masing kunci) (gambar 3)
gambar 3
sekarang hadoop akan dilakukan dengan segalanya. Sekarang Anda dapat memuat hasilnya ke HDFS (sistem file terdistribusi hadoop) atau ke dalam DBMS atau file apa pun.
Itu hanya satu contoh yang sangat mendasar dan sederhana tentang apa yang bisa dilakukan hadoop. Anda dapat menjalankan tugas yang jauh lebih rumit dalam hadoop.
Seperti yang telah Anda sebutkan dalam pertanyaan Anda, hadoop dan noSQL saling melengkapi. Saya tahu beberapa pengaturan di mana yaitu miliaran set data dari sensor disimpan dalam HBase dan kemudian melalui hadoop untuk akhirnya disimpan dalam DBMS.
sumber
NoSQL adalah cara untuk menyimpan data yang tidak mengharuskan ada semacam hubungan. Kesederhanaan desain dan kemampuan skala horizontal, salah satu cara mereka menyimpan data adalah
key : value
desain pasangan. Ini cocok untuk pemrosesan yang mirip dengan Hadoop. Penggunaan db NoSQL sangat tergantung pada jenis masalah yang ada setelahnya.Inilah tautan wikipedia yang bagus, NoSQL
Hadoop adalah sistem yang dimaksudkan untuk menyimpan dan mengolah sejumlah besar data. Ini adalah sistem file terdistribusi dfs. Alasan dilakukannya ini adalah bahwa pusat dari desainnya membuat asumsi bahwa kegagalan perangkat keras adalah umum, sehingga membuat banyak salinan dari informasi yang sama dan menyebarkannya ke beberapa mesin dan rak, jadi jika ada yang jatuh, tidak ada masalah, kami punya dua salinan lagi. Ini adalah tautan yang bagus untuk Hadoop dari wikipedia juga, Anda akan melihat bahwa itu adalah, menurut pendapat saya lebih dari sekadar penyimpanan, tetapi juga pemrosesan: Hadoop
sumber