Apa perbedaan antara Hadoop dan noSQL

15

Saya mendengar tentang banyak alat / kerangka kerja untuk membantu orang memproses data mereka (lingkungan data besar).

Satu disebut Hadoop dan yang lainnya adalah konsep noSQL. Apa perbedaan titik pemrosesan?

Apakah mereka saling melengkapi?

рüффп
sumber
3
Terpilih karena kurangnya upaya penelitian. Hadoop dan noSQL didefinisikan dengan baik di tempat lain.
Spacedman
@ Spacedman Saya setuju tapi itu adalah contoh pertanyaan dari Area51 maka jika tidak dihapus sebelum saya kira itu valid, dan, bahkan saya tahu jawabannya ketika saya memposting pertanyaan (setidaknya secara umum).
рüффп

Jawaban:

16

Hadoop bukan database , hadoop adalah seluruh ekosistem.

ekosistem hadoop

Kebanyakan orang akan merujuk pengurangan pekerjaan saat berbicara tentang hadoop. Pekerjaan mapreduce membagi dataset besar dalam beberapa potongan kecil data dan menyebarkannya ke sekelompok node untuk melanjutkan. Pada akhirnya hasil dari setiap node akan disatukan lagi sebagai satu dataset.


Mari kita asumsikan Anda memuat ke hadoop satu set <String, Integer> dengan populasi beberapa lingkungan di dalam kota dan Anda ingin mendapatkan populasi rata-rata di seluruh lingkungan setiap kota (gambar 1).

Gambar 1

    [new york, 40394]
    [new york, 134]
    [la, 44]
    [la, 647]
    ...

Sekarang hadoop pertama-tama akan memetakan setiap nilai dengan menggunakan tombol (gambar 2)

Gambar 2

[new york, [40394,134]]
[la, [44,647]]
...

Setelah pemetaan itu akan mengurangi nilai setiap kunci ke nilai baru (dalam contoh ini rata-rata di atas nilai yang ditetapkan masing-masing kunci) (gambar 3)

gambar 3

[new york, [20264]]
[la, [346]]
...

sekarang hadoop akan dilakukan dengan segalanya. Sekarang Anda dapat memuat hasilnya ke HDFS (sistem file terdistribusi hadoop) atau ke dalam DBMS atau file apa pun.

Itu hanya satu contoh yang sangat mendasar dan sederhana tentang apa yang bisa dilakukan hadoop. Anda dapat menjalankan tugas yang jauh lebih rumit dalam hadoop.

Seperti yang telah Anda sebutkan dalam pertanyaan Anda, hadoop dan noSQL saling melengkapi. Saya tahu beberapa pengaturan di mana yaitu miliaran set data dari sensor disimpan dalam HBase dan kemudian melalui hadoop untuk akhirnya disimpan dalam DBMS.

Johnny000
sumber
5

NoSQL adalah cara untuk menyimpan data yang tidak mengharuskan ada semacam hubungan. Kesederhanaan desain dan kemampuan skala horizontal, salah satu cara mereka menyimpan data adalahkey : value desain pasangan. Ini cocok untuk pemrosesan yang mirip dengan Hadoop. Penggunaan db NoSQL sangat tergantung pada jenis masalah yang ada setelahnya.

Inilah tautan wikipedia yang bagus, NoSQL

Hadoop adalah sistem yang dimaksudkan untuk menyimpan dan mengolah sejumlah besar data. Ini adalah sistem file terdistribusi dfs. Alasan dilakukannya ini adalah bahwa pusat dari desainnya membuat asumsi bahwa kegagalan perangkat keras adalah umum, sehingga membuat banyak salinan dari informasi yang sama dan menyebarkannya ke beberapa mesin dan rak, jadi jika ada yang jatuh, tidak ada masalah, kami punya dua salinan lagi. Ini adalah tautan yang bagus untuk Hadoop dari wikipedia juga, Anda akan melihat bahwa itu adalah, menurut pendapat saya lebih dari sekadar penyimpanan, tetapi juga pemrosesan: Hadoop

MCP_infiltrator
sumber