Apa definisi dari "Big Data"?

23

Apakah ada satu?

Semua definisi yang saya temukan menggambarkan ukuran, kompleksitas / variasi atau kecepatan data.

Definisi Wikipedia adalah satu-satunya yang saya temukan dengan angka aktual

Ukuran data besar adalah target yang terus bergerak, mulai 2012 mulai dari beberapa lusin terabyte hingga banyak petabyte data dalam satu set data tunggal.

Namun, ini tampaknya bertentangan dengan definisi MIKE2.0 , yang dirujuk dalam paragraf berikutnya, yang menunjukkan bahwa data "besar" bisa kecil dan 100.000 sensor pada pesawat yang hanya menghasilkan 3GB data dapat dianggap besar.

IBM meskipun mengatakan bahwa:

Data besar lebih dari sekadar masalah ukuran.

telah menekankan ukuran dalam definisi mereka .

O'Reilly juga menekankan "volume, velocity and variety" . Meskipun dijelaskan dengan baik, dan secara lebih mendalam, definisi tersebut tampaknya merupakan hash dari yang lain - atau sebaliknya tentu saja.

Saya pikir judul artikel Computer Weekly merangkum sejumlah artikel dengan cukup baik, "Apa itu data besar dan bagaimana bisa digunakan untuk mendapatkan keunggulan kompetitif" .

Tapi ZDNet menang dengan yang berikut dari 2012 :

"Big Data" adalah frasa tangkapan yang telah muncul dari ceruk komputasi kinerja tinggi pasar TI ... Jika seseorang duduk melalui presentasi dari sepuluh pemasok teknologi, lima belas atau lebih definisi yang berbeda kemungkinan akan muncul. Setiap definisi, tentu saja, cenderung mendukung kebutuhan akan produk dan layanan pemasok itu. Bayangkan itu.

Pada dasarnya "data besar" adalah "besar" dalam beberapa bentuk atau cara.

Apa itu "besar"? Apakah ini dapat diukur pada saat ini?

Jika "besar" tidak dapat dikuantifikasi, adakah definisi yang tidak hanya bergantung pada generalisasi?

Ben
sumber
7
"Apa itu" besar "? Apakah ini dapat diukur pada saat ini?". Yakin. Besar lebih dari yang bisa Anda tangani saat ini;)
Oded
1
@Oded, Anda harus mendefinisikan "handle" lalu :-).
Ben
14
Jika Anda harus bertanya, Anda tidak cukup besar untuk menghitung. ;)
FrustratedWithFormsDesigner
@ Ben - Itu didefinisikan secara berbeda untuk setiap individu dan sistem ...
Oded
4
"Besar" kemungkinan besar mengacu pada "sulit ditangani". Cukup untuk tidak muat dalam memori, isi disk, luangkan waktu untuk mentransfer melalui jaringan, dll.

Jawaban:

42

Tidak ada; itu kata kunci.

Namun delineatornya adalah bahwa data Anda berada di luar kemampuan sistem tradisional. Data terlalu besar untuk disimpan pada disk terbesar, kueri membutuhkan waktu terlalu lama tanpa optimasi khusus, jaringan atau disk tidak dapat mendukung arus lalu lintas yang masuk, tampilan data lama yang sederhana tidak akan menangani visualisasi untuk bentuk / ukuran / luasnya data ...

Pada dasarnya, bahwa data Anda berada di luar titik kritis yang tidak jelas di mana "tambahkan saja perangkat keras" tidak akan memotongnya.

Telastyn
sumber
+1 dan lebih jauh lagi, apa yang dianggap sebagai "besar" selalu berubah ketika perangkat keras yang lebih baik menyusul dan alat yang dikustomisasi sebelumnya menjadi matang, terstandarisasi dan dijual secara komersial untuk mengatasi masalah tersebut.
FrustratedWithFormsDesigner
Dengan kata lain: tidak, tidak tahu, tidak, tidak :-).
Ben
Selain itu, sebelum big data menjadi hal besar, banyak perusahaan dan lembaga penelitian sudah melakukan hal-hal big data. Hanya sekarang dengan semua tantangan data besar media sosial / online telah menjadi arus utama.
Paul Hiemstra
2

Seperti yang ditunjukkan dalam tautan Oracle (komentar oleh Immad Careem) oracle.com/us/technologies/big-data/index.html. Big Data adalah segala sesuatu yang bukan data relasional yang disimpan dalam RDBMS. Beberapa tahun sebelum hype itu hanya "banyak data". Sekarang itu tumbuh dan dipromosikan oleh pemasar untuk menjadi semacam data khusus.

Ada beberapa alasan sekunder (selain pemasaran) untuk menganggap Big Data sebagai hal yang nyata.

  1. Penemuan Peta-Mengurangi
  2. Teknologi NOSQL seperti Hadoop
  3. Beberapa evolusi dalam RDBMS tradisional dipengaruhi oleh permintaan tipe data yang tidak terstruktur
  4. Mungkin beberapa teknologi perangkat keras yang ditawarkan oleh perusahaan EMC2

sumber
2
"Penemuan Peta-Mengurangi"? Anda pasti bercanda.
Telastyn
1
"Segala sesuatu yang bukan data relasional" adalah definisi yang hanya bisa datang dari seseorang yang berpusat pada RDB seperti Oracle (dan itu salah). Di bawah definisi itu, setiap indeks SolR, setiap database MongoDB dan setiap DB Berkley adalah "data besar". Dan itu bodoh sekali.
Joachim Sauer
0

Menggunakan jawaban Doug Laney sebagai titik awal, kami merekayasa balik daftar definisi Big Data, sekarang lebih dari 30 dan menjadi kuat. Daftar definisi kami untuk "Big Data" ada di sini .

Kami menerima koreksi, entri, grafik, dll.

Pembuka BData
sumber
-1

Senang melihat O'Reilly dan yang lainnya akhirnya menggunakan data besar 3V Gartner yang pertama kali kami perkenalkan lebih dari 11 tahun yang lalu. Untuk referensi, inilah karya asli yang saya tulis pada tahun 2001: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .

Definisi baru-baru ini yang diperbarui oleh Gartner juga mengakui aspek nilai: "Big Data adalah aset informasi dengan volume, kecepatan, dan / atau variasi yang memerlukan bentuk inovatif dari pemrosesan informasi untuk peningkatan penemuan wawasan, pengambilan keputusan, dan otomatisasi proses."

Kami juga telah mengembangkan metode untuk mengukur besarnya data di sepanjang tiga vektor yang bersifat preskriptif dalam hal adopsi teknologi. Namun saya tidak dapat membaginya secara publik.

Doug Laney
sumber