Saya telah menikmati membaca ServerFault untuk sementara waktu dan saya telah menemukan beberapa topik di Hadoop. Saya mengalami sedikit kesulitan untuk mengetahui apa yang dikerjakannya dari sudut pandang global.
Jadi pertanyaan saya cukup sederhana: Apa itu Hadoop? Apa fungsinya? Untuk apa ini digunakan? Mengapa itu menendang pantat?
Sunting: Jika ada orang yang memiliki demonstrasi / penjelasan kasus penggunaan di mana Hadoop digunakan, itu akan fantastis.
Jawaban:
Langsung dari mulut kuda :
Peta / Mengurangi adalah paradigma pemrograman yang dipopulerkan oleh Google di mana dalam tugas dibagi menjadi bagian-bagian kecil dan didistribusikan ke sejumlah besar node untuk diproses (peta), dan hasilnya kemudian dirangkum menjadi jawaban akhir (mengurangi ). Google dan Yahoo menggunakan ini untuk teknologi mesin pencari mereka, antara lain.
Hadoop adalah kerangka kerja umum untuk menerapkan skema pemrosesan semacam ini. Adapun mengapa itu menendang pantat, terutama karena ia menyediakan fitur rapi seperti toleransi kesalahan dan memungkinkan Anda menyatukan hampir semua jenis perangkat keras untuk melakukan pemrosesan. Ini juga berskala sangat baik, asalkan masalah Anda sesuai dengan paradigma.
Anda dapat membaca semua tentang itu di situs web .
Adapun beberapa contoh, Paul memberi beberapa, tapi di sini ada beberapa lagi yang bisa Anda lakukan yang tidak terlalu web-centric:
dan kemudian hasilnya dirangkum dalam langkah "mengurangi".
Pada dasarnya model ini bekerja sangat baik untuk masalah yang dapat dipecah menjadi perhitungan diskrit serupa yang sepenuhnya independen, dan dapat direkombinasi untuk menghasilkan hasil akhir.
sumber
Cloudera memiliki beberapa video hebat yang menjelaskan prinsip-prinsip di balik Peta Reduce dan Hadoop.
http://www.cloudera.com/hadoop-training-basic
Salah satu ide inti di balik MapReduce adalah bahwa untuk set data besar Anda akan terikat pada disk Anda, jadi di Hadoop HDFS memberi Anda kemampuan untuk membagi berbagai hal di antara banyak node yang memungkinkan pemrosesan paralel.
Beberapa penggunaan Hadoop yang menarik bagi administrator sistem sering sedang memproses set file log besar - Saya hanya dapat memposting satu tautan tetapi ini termasuk, google harus menemukan ini:
sumber
Awalnya hadoop dikembangkan untuk sejumlah besar set data di lingkungan OLAP.
Dengan diperkenalkannya Hbase di atas hadoop, tebu dapat digunakan untuk OLAP Processing juga. Hadoop adalah kerangka kerja dengan semua subkomponen seperti pengurangan peta, HDFS, hbase, babi.
Jika Anda mencari salah satu artikel dengan dasar hadoop di Why Hadoop diperkenalkan .
Di Hadoop, penyimpanan data dalam bentuk file, bukan dalam tabel, kolom.
sumber