Apa itu Hadoop dan untuk apa itu digunakan? [Tutup]

28

Saya telah menikmati membaca ServerFault untuk sementara waktu dan saya telah menemukan beberapa topik di Hadoop. Saya mengalami sedikit kesulitan untuk mengetahui apa yang dikerjakannya dari sudut pandang global.

Jadi pertanyaan saya cukup sederhana: Apa itu Hadoop? Apa fungsinya? Untuk apa ini digunakan? Mengapa itu menendang pantat?

Sunting: Jika ada orang yang memiliki demonstrasi / penjelasan kasus penggunaan di mana Hadoop digunakan, itu akan fantastis.

Antoine Benkemoun
sumber
Facebook banyak menggunakan Hadoop (yah benar-benar Hive yang merupakan lapisan di atas Hadoop). Ada langganan yang bagus di halaman Rekayasa Facebook. facebook.com/note.php?note_id=89508453919
John Meagher
Hadoop adalah kerangka kerja yang membuat pemrosesan sejumlah besar data ( Big data ) menjadi mudah dengan mendistribusikan kelompok data di antara node / server dan membuat proses berjalan secara paralel. Proses / algoritma ini dikenal sebagai MapReduce.
Mr_Green

Jawaban:

26

Langsung dari mulut kuda :

Hadoop adalah kerangka kerja untuk menjalankan aplikasi pada kelompok besar yang dibangun dari perangkat keras komoditas. Kerangka kerja Hadoop secara transparan menyediakan aplikasi baik keandalan maupun pergerakan data. Hadoop mengimplementasikan paradigma komputasi bernama Map / Reduce, di mana aplikasi dibagi menjadi banyak fragmen kecil pekerjaan, yang masing-masing dapat dieksekusi atau dieksekusi kembali pada setiap node dalam cluster. Selain itu, ia menyediakan sistem file terdistribusi (HDFS) yang menyimpan data pada node komputasi, menyediakan bandwidth agregat yang sangat tinggi di seluruh cluster. Baik Map / Reduce dan sistem file terdistribusi dirancang sehingga kegagalan node secara otomatis ditangani oleh framework.

Peta / Mengurangi adalah paradigma pemrograman yang dipopulerkan oleh Google di mana dalam tugas dibagi menjadi bagian-bagian kecil dan didistribusikan ke sejumlah besar node untuk diproses (peta), dan hasilnya kemudian dirangkum menjadi jawaban akhir (mengurangi ). Google dan Yahoo menggunakan ini untuk teknologi mesin pencari mereka, antara lain.

Hadoop adalah kerangka kerja umum untuk menerapkan skema pemrosesan semacam ini. Adapun mengapa itu menendang pantat, terutama karena ia menyediakan fitur rapi seperti toleransi kesalahan dan memungkinkan Anda menyatukan hampir semua jenis perangkat keras untuk melakukan pemrosesan. Ini juga berskala sangat baik, asalkan masalah Anda sesuai dengan paradigma.

Anda dapat membaca semua tentang itu di situs web .

Adapun beberapa contoh, Paul memberi beberapa, tapi di sini ada beberapa lagi yang bisa Anda lakukan yang tidak terlalu web-centric:

  • Rendering film 3D. Langkah "map" mendistribusikan geometri untuk setiap frame ke node yang berbeda, node me-rendernya, dan frame yang diberikan digabungkan dalam langkah "kurangi".
  • Menghitung energi dalam suatu sistem dalam model molekul. Setiap frame dari lintasan sistem didistribusikan ke sebuah simpul dalam langkah "peta". Node menghitung energi untuk setiap frame,
    dan kemudian hasilnya dirangkum dalam langkah "mengurangi".

Pada dasarnya model ini bekerja sangat baik untuk masalah yang dapat dipecah menjadi perhitungan diskrit serupa yang sepenuhnya independen, dan dapat direkombinasi untuk menghasilkan hasil akhir.

Kamil Kisiel
sumber
Terima kasih atas jawaban Anda. Jadi pada dasarnya dibutuhkan aplikasi (PHP? Java?) Dan itu memecahnya dan mengirimkan pekerjaan di antara banyak node? Adapun HDFS, itu seperti OCFS kecuali dengan sekelompok node?
Antoine Benkemoun
Tertarik juga di sini. Saya ingin melihat beberapa contoh kata nyata yang lebih spesifik.
Karolis T.
Itulah yang saya cari juga :-)
Antoine Benkemoun
10

Cloudera memiliki beberapa video hebat yang menjelaskan prinsip-prinsip di balik Peta Reduce dan Hadoop.

http://www.cloudera.com/hadoop-training-basic

Salah satu ide inti di balik MapReduce adalah bahwa untuk set data besar Anda akan terikat pada disk Anda, jadi di Hadoop HDFS memberi Anda kemampuan untuk membagi berbagai hal di antara banyak node yang memungkinkan pemrosesan paralel.

Beberapa penggunaan Hadoop yang menarik bagi administrator sistem sering sedang memproses set file log besar - Saya hanya dapat memposting satu tautan tetapi ini termasuk, google harus menemukan ini:

  1. Permintaan log mail Rackspace
  2. Analisis log Apache dengan babi - lihat blog Cloudera
  3. Yahoo! melawan spam

sumber
Terlihat bagus saya akan melihat :-)
Antoine Benkemoun
1

Awalnya hadoop dikembangkan untuk sejumlah besar set data di lingkungan OLAP.

Dengan diperkenalkannya Hbase di atas hadoop, tebu dapat digunakan untuk OLAP Processing juga. Hadoop adalah kerangka kerja dengan semua subkomponen seperti pengurangan peta, HDFS, hbase, babi.

Jika Anda mencari salah satu artikel dengan dasar hadoop di Why Hadoop diperkenalkan .

Di Hadoop, penyimpanan data dalam bentuk file, bukan dalam tabel, kolom.

Deepak
sumber