Apakah saya perlu belajar Hadoop untuk menjadi Ilmuwan Data?

38

Seorang ilmuwan data yang bercita-cita di sini. Saya tidak tahu apa-apa tentang Hadoop, tetapi karena saya telah membaca tentang Ilmu Data dan Big Data, saya melihat banyak pembicaraan tentang Hadoop. Apakah benar-benar perlu untuk mempelajari Hadoop untuk menjadi Ilmuwan Data?

Pensu
sumber
1
Kelas pertanyaan ini sedang dibahas dalam meta. Anda dapat menyuarakan pendapat Anda tentang meta post ini.
asheeshr
Itu tidak mutlak diperlukan. Itu hanya salah satu alat. Yang diperlukan adalah pemahaman statistik dan aljabar linier. Pilihan alat adalah pilihan kedua.
Victor
Lihatlah e-book gratis ini dan mencoba menjawab pertanyaan Anda. oreilly.com/data/free/files/analyzing-the-analyzers.pdf
Espanta
Saya memiliki pertanyaan serupa tentang IBM Watson Analytics, Bigquery Google, dan analitik berbasis cloud lainnya apakah teknologi ini lebih baik daripada Hadoop dan percikan ..... Saya baru mulai mempelajari Hadoop dan percikan dan saya benar-benar perlu mempelajari Hadoop dan percikan untuk lakukan analisis data besar

Jawaban:

47

Orang yang berbeda menggunakan alat yang berbeda untuk hal yang berbeda. Istilah seperti Ilmu Data adalah generik karena suatu alasan. Seorang ilmuwan data dapat menghabiskan seluruh karir tanpa harus mempelajari alat tertentu seperti hadoop. Hadoop banyak digunakan, tetapi bukan satu-satunya platform yang mampu mengelola dan memanipulasi data, bahkan data skala besar.

Saya akan mengatakan bahwa seorang ilmuwan data harus terbiasa dengan konsep-konsep seperti MapReduce, sistem terdistribusi, sistem file terdistribusi, dan sejenisnya, tetapi saya tidak akan menilai seseorang karena tidak mengetahui tentang hal-hal seperti itu.

Ini ladang besar. Ada lautan pengetahuan dan kebanyakan orang mampu belajar dan menjadi ahli dalam satu tetes. Kunci untuk menjadi seorang ilmuwan adalah memiliki keinginan untuk belajar dan motivasi untuk mengetahui apa yang belum Anda ketahui.

Sebagai contoh: Saya bisa memberikan kepada orang yang tepat seratus file CSV terstruktur yang berisi informasi tentang kinerja kelas dalam satu kelas tertentu selama satu dekade. Seorang ilmuwan data akan dapat menghabiskan waktu satu tahun untuk mengumpulkan wawasan dari data tanpa perlu menyebarkan komputasi ke berbagai mesin. Anda dapat menerapkan algoritma pembelajaran mesin, menganalisanya menggunakan visualisasi, menggabungkannya dengan data eksternal tentang wilayah, susunan etnis, perubahan lingkungan dari waktu ke waktu, informasi politik, pola cuaca, dll. Semua itu akan menjadi "ilmu data" menurut pendapat saya . Mungkin diperlukan sesuatu seperti hadoop untuk menguji dan menerapkan apa pun yang Anda pelajari ke data yang terdiri dari seluruh negara siswa, bukan hanya ruang kelas, tetapi langkah terakhir itu tidak serta-merta membuat seseorang menjadi ilmuwan data.

Steve Kallestad
sumber
10

Sebagai mantan insinyur Hadoop, itu tidak diperlukan tetapi itu membantu. Hadoop hanyalah satu sistem - sistem yang paling umum, berdasarkan Jawa, dan ekosistem produk, yang menerapkan teknik tertentu "Peta / Pengurangan" untuk mendapatkan hasil pada waktu yang tepat. Hadoop tidak digunakan di Google, meskipun saya jamin mereka menggunakan analitik data besar. Google menggunakan sistem mereka sendiri, yang dikembangkan dalam C ++. Faktanya, Hadoop diciptakan sebagai hasil dari Google yang menerbitkan kertas putih Peta / Pengurangan dan BigTable (HBase in Hadoop) mereka.

Ilmuwan data akan berinteraksi dengan insinyur hadoop, meskipun di tempat yang lebih kecil Anda mungkin diminta untuk memakai kedua topi. Jika Anda benar-benar seorang ilmuwan data, maka apa pun yang Anda gunakan untuk analisis Anda, R, Excel, Tableau, dll, akan beroperasi hanya pada subset kecil, maka perlu dikonversi untuk dijalankan terhadap set data lengkap yang melibatkan hadoop.

pengguna9170
sumber
8

Anda harus terlebih dahulu memperjelas apa yang Anda maksud dengan "pelajari Hadoop". Jika Anda bermaksud menggunakan Hadoop, seperti belajar memprogram di MapReduce, maka kemungkinan besar itu adalah ide yang bagus. Tetapi pengetahuan mendasar (basis data, pembelajaran mesin, statistik) mungkin memainkan peran yang lebih besar seiring berjalannya waktu.

lgylym
sumber
Rupanya sebagian besar orang menggunakan Hadoop untuk analitik. Apa yang saya pikirkan adalah apakah saya memerlukan sesuatu seperti itu atau pengetahuan tentang database, ML, statistik sudah cukup?
Pensu
5

Ya, Anda harus mempelajari platform yang mampu membedah masalah Anda sebagai masalah paralel data. Hadoop adalah satu. Untuk kebutuhan sederhana Anda (pola desain seperti penghitungan, agregasi, pemfilteran, dll.) Anda memerlukan Hadoop dan untuk hal-hal Machine Learning yang lebih kompleks seperti mengerjakan beberapa Bayesian, SVM Anda memerlukan Mahout yang pada gilirannya membutuhkan Hadoop (Sekarang Apache Spark) untuk menyelesaikan masalah Anda menggunakan pendekatan data-paralel.

Jadi Hadoop adalah platform yang baik untuk dipelajari dan sangat penting untuk kebutuhan pemrosesan batch Anda. Tidak hanya Hadoop tetapi Anda juga perlu tahu Spark (Mahout menjalankan algoritme menggunakan Spark) & Twitter Storm (untuk kebutuhan analisis waktu nyata Anda). Daftar ini akan berlanjut dan berkembang sehingga jika Anda baik dengan blok bangunan (Komputasi Terdistribusi, Masalah Paralel Data, dan sebagainya) dan tahu bagaimana satu platform tersebut (katakanlah Hadoop) beroperasi, Anda akan cukup cepat untuk mempercepat yang lain.

Yavar
sumber
4

Ini sangat tergantung pada lingkungan / perusahaan tempat Anda bekerja. Di mata saya ada sensasi "data besar" saat ini dan banyak perusahaan mencoba memasuki bidang ini dengan solusi berbasis hadoop - yang membuat hadoop juga menjadi kata kunci tetapi tidak selalu merupakan solusi terbaik.

Dalam pikiran saya, seorang Ilmuwan Data yang baik harus dapat mengajukan pertanyaan yang tepat dan terus bertanya lagi sampai jelas apa yang benar-benar dibutuhkan. Daripada DataScientist yang baik - tentu saja - perlu tahu cara mengatasi masalah (atau setidaknya mengenal seseorang yang bisa). Kalau tidak, pemangku kepentingan Anda bisa frustrasi :-)

Jadi, saya akan mengatakan itu tidak mutlak diperlukan untuk mempelajari Hadoop.

PlagTag
sumber
2

Anda dapat menerapkan teknik sains data ke data pada satu mesin sehingga jawaban atas pertanyaan seperti yang diungkapkan OP, adalah tidak.

Ihe Onwuka
sumber
1

Ilmu Data adalah bidang yang menuntut berbagai keterampilan. Memiliki pengetahuan tentang Hadoop adalah salah satunya. Tugas utama seorang Ilmuwan Data meliputi:

  1. Mengumpulkan data dari sumber yang berbeda.
  2. Membersihkan dan pra-pemrosesan data.
  3. Mempelajari sifat statistik data.
  4. Menggunakan teknik Machine Learning untuk melakukan peramalan dan mendapatkan wawasan dari data.
  5. Mengkomunikasikan hasilnya kepada pembuat keputusan dengan cara yang mudah dimengerti.

Dari poin-poin di atas, pengetahuan tentang Hadoop berguna untuk poin 1,2 dan 3, tetapi Anda juga harus memiliki latar belakang matematika / statistik yang kuat dan pengetahuan yang kuat tentang teknik komputasi untuk bekerja di bidang ilmu data. Hadoop juga bukan satu-satunya kerangka kerja yang digunakan dalam Ilmu Data. Ekosistem Big Data memiliki berbagai kerangka kerja, masing-masing spesifik untuk kasus penggunaan tertentu. Artikel ini memberikan materi pengantar tentang kerangka kerja Big Data utama yang dapat digunakan dalam Ilmu Data:

http://www.codophile.com/big-data-frameworks-every-programmer-should-know/

Rajeev Singh
sumber
1

Saya pikir kerangka Leaning Hadoop (cara yang sulit) bukan persyaratan untuk menjadi Ilmuwan Data. Pengetahuan umum tentang semua platform data besar sangat penting. Saya akan menyarankan untuk mengetahui konsep tentang itu dan satu-satunya bagian dari Hadoop adalah MapReduce http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html

Data Scientist tidak membangun cluster, mengelola ... hanya membuat "keajaiban" dengan data dan tidak peduli dari mana datangnya. Istilah "Hadoop" tidak hanya merujuk pada modul dasar di atas, tetapi juga "ekosistem", atau kumpulan paket perangkat lunak tambahan yang dapat diinstal di atas atau di samping Hadoop, seperti Apache Pig, Apache Hive, Apache HBase, Apache Spark, dan lainnya.

Paling penting adalah Bahasa pemrograman, matematika dan statistik untuk bekerja dengan data (Anda harus menemukan cara untuk terhubung dengan data dan bergerak maju). Saya berharap ada seseorang yang mengarahkan saya ke konsep dan tidak menghabiskan minggu pada kerangka belajar dan membangun dari awal node dan cluster, karena bagian itu adalah peran Administrator dan bukan Data Engineer atau Data Scientist. Juga satu hal: semua berubah dan berkembang tetapi matematika, pemrograman, statistik masih merupakan persyaratan.

mengakses data dari HDFS sangat penting, misalnya PROC Hadoop, Hive, SparkContext atau driver atau pipa lain (perlakukan hadoop sebagai titik mengakses data atau penyimpanan :)

sudah ada alat atau kerangka kerja yang mengatur alokasi dan manajemen sumber daya, kinerja.

n1tk
sumber