Apa itu Big Data?

44

Saya telah ditanya beberapa kali pertanyaan:

Apa itu Big-Data?

Baik oleh siswa dan kerabat saya yang mengambil buzz di sekitar statistik dan ML.

Saya menemukan posting CV ini . Dan saya merasa saya setuju dengan satu-satunya jawaban di sana.

The halaman Wikipedia juga memiliki beberapa komentar tentang itu, tapi saya tidak yakin apakah saya benar-benar setuju dengan semua ada.

EDIT: (Saya merasa bahwa halaman Wikipedia kurang dalam menjelaskan metode untuk mengatasi ini dan paradigma yang saya sebutkan di bawah) .

Saya baru-baru ini menghadiri kuliah oleh Emmanuel Candès , di mana ia memperkenalkan paradigma Big-Data sebagai

Kumpulkan data terlebih dahulu Ajukan pertanyaan nanti

Ini adalah perbedaan utama dari penelitian yang didorong oleh hipotesis, di mana Anda pertama kali merumuskan hipotesis dan kemudian mengumpulkan data untuk mengatakan sesuatu tentang hal itu.

Dia pergi banyak ke masalah mengukur keandalan hipotesis yang dihasilkan oleh pengintaian data. Hal utama yang saya ambil dari kuliahnya adalah bahwa kita benar-benar harus mulai mengendalikan FDR dan dia mempresentasikan metode tiruan untuk melakukannya.

Saya pikir CV harus memiliki pertanyaan tentang apa itu Big-Data dan apa definisi Anda tentang itu. Saya merasa ada begitu banyak "definisi" yang berbeda , sehingga sulit untuk benar-benar memahami apa itu, atau menjelaskannya kepada orang lain, jika tidak ada konsensus umum tentang apa itu terdiri.

Saya merasa bahwa "definisi / paradigma / deskripsi" yang diberikan oleh Candès adalah hal terdekat yang saya setujui, apa pendapat Anda?

EDIT2: Saya merasa bahwa jawabannya harus memberikan sesuatu yang lebih dari sekadar penjelasan tentang data itu sendiri. Ini harus merupakan kombinasi dari data / metode / paradigma.

EDIT3: Saya merasa bahwa wawancara dengan Michael Jordan ini dapat menambahkan sesuatu ke meja juga.

EDIT4: Saya memutuskan untuk memilih jawaban tertinggi sebagai yang benar. Meskipun saya berpikir bahwa semua jawaban menambah sesuatu ke dalam diskusi dan saya pribadi merasa bahwa ini lebih merupakan pertanyaan tentang paradigma bagaimana kita menghasilkan hipotesis dan bekerja dengan data. Saya harap pertanyaan ini akan menjadi kumpulan referensi bagi mereka yang mencari Big-Data. Saya harap halaman Wikipedia akan diubah untuk lebih menekankan masalah perbandingan multipel dan kontrol FDR.

Gumeo
sumber
55
"Data besar seperti seks remaja: semua orang membicarakannya, tidak ada yang benar-benar tahu bagaimana melakukannya, semua orang berpikir orang lain melakukannya, jadi semua orang mengklaim mereka melakukannya." Simon Matthews
Alexander Lutsenko
4
kutipan ini tidak berlaku lagi. Orang membuat banyak karya luar biasa baru-baru ini. Jika Anda melihat kompetisi di Kaggle, perusahaan meningkatkan bisnis mereka dan menghasilkan banyak uang dengan membelanjakan banyak uang. Contoh lain untuk aplikasi Big Data dapat ditemukan di sini: linkedin.com/pulse/…
Metariat
5
@ XuanQuangDO, saya setuju. Jangan menganggap serius kutipan ini.
Alexander Lutsenko
6
@XuanQuangDO: well, saya yakin beberapa remaja melakukan hubungan seks yang luar biasa, tetapi itu tidak mengubah fakta bahwa ada banyak juga yang tidak kompeten atau salah jalan, yang orang-orang akan mengejek dengan kejam ;-)
Steve Jessop

Jawaban:

54

Saya merasa senang menghadiri kuliah yang diberikan oleh Dr. Hadley Wickham, dari RStudio ketenaran. Dia mendefinisikannya sedemikian rupa sehingga

  • Big Data: Tidak dapat memuat memori di satu komputer:> 1 TB
  • Data Sedang: Sesuai di memori pada server: 10 GB - 1 TB
  • Data Kecil: Sesuai di memori pada laptop: <10 GB

Hadley juga percaya bahwa sebagian besar data setidaknya dapat direduksi menjadi masalah yang dapat dikelola, dan bahwa jumlah yang sangat kecil sebenarnya adalah data besar. Dia menyatakan ini sebagai "Big Data Mirage".

  • 90% Dapat direduksi menjadi masalah data kecil / sedang dengan subset / pengambilan sampel / ringkasan
  • 9% Dapat direduksi menjadi sejumlah besar masalah data kecil
  • 1% Sangat besar

Slide dapat ditemukan di sini .

Chris C
sumber
2
@ GuðmundurEinarsson, saya baru saja mengeditnya, terima kasih atas sarannya.
Chris C
5
Meskipun saya tidak berpikir ada batas yang jelas, saya pikir posting ini sangat mendalam. Ketika saya bekerja di perusahaan SW, saya berinteraksi dengan beberapa pelanggan yang mencari " solusi big-data "; pada kenyataannya mereka melewatkan SODIMM 16 GB.
usεr11852 mengatakan Reinstate Monic
2
Dengan SSD 1TB saat ini, penyimpanan nonvolatile tidak terlalu jauh dari kecepatan penyimpanan volatile. Saya merasa saya berharap data besar lebih besar dari 1TB, mungkin setidaknya 50 TB atau sesuatu.
Mehrdad
3
Dengan segala hormat kepada Anda dan Hadley, data tawaran tidak hanya tentang volume. Biasanya data penawaran didefinisikan melalui 3V dan, yang lebih baru, model 4V (diusulkan oleh Gartner) - lihat jawaban oleh Dawny33 di bawah ini. Namun, beberapa ahli (termasuk dari Gartner) mempertimbangkan yang lain, dan mereka berpendapat dimensi V yang paling penting, di mana V mewakili nilai bisnis . Sebagai contoh, lihat posting ini dan posting ini .
Aleksandr Blekh
2
@AlexandrBlekh Komentar Anda berisi diskusi bernuansa kontroversi seputar kriteria "Big Data" di antara para ahli, dan beberapa referensi untuk mendukung klaim Anda tentang hal itu. Saya pikir Anda harus mempertimbangkan mengubahnya menjadi jawaban.
Silverfish
19

Kumpulan / aliran data disebut Big Data, jika memenuhi keempat V

  • Volume
  • Kecepatan
  • Kebenaran
  • Variasi

Kecuali dan sampai tidak puas, set data tidak dapat disebut sebagai Big Data.

Jawaban saya yang serupa, untuk referensi.


Karena itu, sebagai ilmuwan data; Saya menemukan kerangka kerja Peta-Mengurangi benar-benar bagus. Memisahkan data Anda, memetakannya dan kemudian hasil langkah mapper direduksi menjadi satu hasil. Saya menemukan kerangka kerja ini benar-benar menarik, dan bagaimana hal itu menguntungkan dunia data.

Dan ini adalah beberapa cara bagaimana saya menangani masalah data selama pekerjaan saya sehari-hari:

  1. Basis Data Kolom: Ini adalah anugerah bagi para ilmuwan data. Saya menggunakan Aws Red Shift sebagai penyimpanan data kolom saya. Ini membantu dalam menjalankan query SQL yang kompleks dan tidak terlalu merepotkan. Saya merasa sangat bagus, terutama ketika tim pertumbuhan saya mengajukan beberapa pertanyaan yang sangat rumit, dan saya tidak perlu mengatakan "Ya, jalankan kueri; kami akan mendapatkannya dalam sehari!"
  2. Spark dan Kerangka Pengurangan Peta: Alasan telah dijelaskan di atas.

Dan inilah cara eksperimen data dilakukan:

  • Masalah yang harus dijawab diidentifikasi
  • Sumber data yang mungkin sekarang terdaftar.
  • Pipa dirancang untuk mendapatkan data ke Redshift dari database lokal. Ya, Spark datang ke sini. Ini benar-benar berguna selama DB -> S3 -> pergerakan data Redshift.
  • Kemudian, kueri dan analisis SQL dilakukan pada data di Redshift.

Ya, ada algoritma Big Data seperti hyper loglog, dll; tapi saya belum menemukan kebutuhan untuk menggunakannya.

Jadi iya. Data dikumpulkan terlebih dahulu sebelum menghasilkan hipotesis.

Dawny33
sumber
5
Saya setuju dengan hal-hal ini, tetapi saya pikir istilah Big Data mencakup sesuatu yang lebih dari data itu sendiri. Ini juga merupakan metode yang diterapkan padanya dan paradigma pertama mengumpulkan data sebelum menghasilkan hipotesis tentang hal itu.
Gumeo
1
@ GuðmundurEinarsson Saya sedang terburu-buru, jadi ingin memberi Anda jawaban terbaik dalam waktu singkat. Jadi, saya sekarang telah mengedit dan memperluasnya dengan alur kerja dan pemahaman dari pengalaman sehari-hari saya dengan data besar di industri.
Dawny33
1
Keempat V sedang dibalikkan di sini sebagai pendefinisian big data daripada sebagai properti penting big data. Banyak contoh dapat dibuat dari data besar tanpa beberapa dari 4 dan bahkan ada yang terdaftar dalam infografis IBM.
John
@ John Ya, V memang banyak berubah. Ada juga argumen untuk V ( Nilai ) baru
Dawny33
1
Saya tidak mengatakan mereka berubah, saya katakan Anda membalik deskripsi beberapa properti menjadi definisi yang salah. Ini seperti seseorang menggambarkan hal-hal penting kepada mereka tentang seekor anjing sebagai kesetiaan, tawa, dan menjilati dan orang lain datang dan mengatakan itulah definisi seekor anjing. Yang mengatakan, saya pikir Anda lebih di jalur yang benar mempertimbangkan membalikkan arah analisis tetapi hanya perlu dilampirkan ke ukuran data dengan cara. Saya pikir ada banyak cara bagus untuk melakukan itu dan akan bagus jika Anda mengembangkannya.
Yohanes
14

Saya pikir satu-satunya definisi big data yang berguna adalah data yang mengatalogkan semua informasi tentang fenomena tertentu. Yang saya maksud dengan itu adalah bahwa alih-alih mengambil sampel dari beberapa populasi yang menarik dan mengumpulkan beberapa pengukuran pada unit-unit itu, data besar mengumpulkan pengukuran pada seluruh populasi yang diminati. Misalkan Anda tertarik dengan pelanggan Amazon.com. Sangat layak bagi Amazon.com untuk mengumpulkan informasi tentang semua pembelian pelanggan mereka, daripada hanya melacak beberapa pengguna atau hanya melacak beberapa transaksi.

Menurut saya, definisi yang bergantung pada ukuran memori dari data itu sendiri menjadi utilitas yang agak terbatas. Dengan metrik itu, diberikan komputer yang cukup besar, tidak ada data yang sebenarnya adalah data besar. Pada tingkat ekstrem komputer yang sangat besar, argumen ini mungkin tampak reduktif, tetapi pertimbangkan untuk membandingkan laptop kelas konsumen saya dengan server Google. Jelas saya memiliki masalah logistik yang sangat besar yang berusaha untuk menyaring data terabyte, tetapi Google memiliki sumber daya untuk mengatur tugas itu dengan mudah. Lebih penting lagi, ukuran komputer Anda bukan properti intrinsik dari data , jadi mendefinisikan data semata-mata mengacu pada teknologi apa pun yang Anda miliki adalah semacam mengukur jarak dalam hal panjang lengan Anda.

Argumen ini bukan hanya formalisme. Kebutuhan akan skema paralelisasi yang rumit dan platform komputasi terdistribusi menghilang begitu Anda memiliki kekuatan komputasi yang memadai. Jadi jika kita menerima definisi bahwa Big Data terlalu besar untuk masuk ke dalam RAM (atau crash Excel, atau apa pun), maka setelah kita meningkatkan mesin kami, Big Data tidak ada lagi. Ini terlihat konyol.

Tetapi mari kita lihat beberapa data tentang data besar, dan saya akan menyebutnya "Metadata Besar." Posting blog ini mengamati tren penting: RAM yang tersedia meningkat lebih cepat daripada ukuran data, dan secara provokatif mengklaim bahwa "RAM Besar memakan Data Besar" - yaitu, dengan infrastruktur yang memadai, Anda tidak lagi memiliki masalah data besar, Anda hanya perlu punya data, dan Anda kembali ke domain metode analisis konvensional.

Selain itu, metode representasi yang berbeda akan memiliki ukuran yang berbeda, sehingga tidak jelas apa artinya memiliki "data besar" yang ditentukan sehubungan dengan ukurannya dalam memori. Jika data Anda dibuat sedemikian rupa sehingga banyak informasi yang berlebihan disimpan (yaitu, Anda memilih pengkodean yang tidak efisien), Anda dapat dengan mudah melewati ambang batas yang dapat ditangani oleh komputer Anda. Tetapi mengapa Anda ingin definisi memiliki properti ini? Menurut saya, apakah kumpulan data itu adalah "data besar" seharusnya tidak bergantung pada apakah Anda membuat pilihan yang efisien dalam desain penelitian atau tidak.

Dari sudut pandang seorang praktisi, data besar seperti yang saya definisikan juga disertai dengan persyaratan komputasi, tetapi persyaratan ini khusus untuk aplikasi. Berpikir melalui desain basis data (perangkat lunak, perangkat keras, organisasi) untuk pengamatan sangat berbeda dari untuk10 7104107pengamatan, dan itu baik-baik saja. Ini juga menyiratkan bahwa data besar, seperti yang saya definisikan, mungkin tidak memerlukan teknologi khusus di luar apa yang telah kami kembangkan dalam statistik klasik: sampel dan interval kepercayaan masih sangat berguna dan alat inferensial yang valid ketika Anda perlu melakukan ekstrapolasi. Model linier dapat memberikan jawaban yang dapat diterima untuk beberapa pertanyaan. Tapi data besar seperti yang saya definisikan mungkin memerlukan teknologi baru. Mungkin Anda perlu mengklasifikasikan data baru dalam situasi di mana Anda memiliki lebih banyak prediktor daripada data pelatihan, atau di mana prediktor Anda tumbuh dengan ukuran data Anda. Masalah-masalah ini akan membutuhkan teknologi yang lebih baru.


Sebagai tambahan, saya pikir pertanyaan ini penting karena secara implisit menyentuh mengapa definisi itu penting - yaitu, untuk siapa Anda mendefinisikan topik. Diskusi tambahan untuk siswa kelas pertama tidak dimulai dengan teori himpunan, itu dimulai dengan referensi untuk menghitung objek fisik. Sudah pengalaman saya bahwa sebagian besar penggunaan istilah "data besar" terjadi di media populer atau dalam komunikasi antara orang-orang yang bukan spesialis dalam statistik atau pembelajaran mesin (bahan pemasaran meminta analisis profesional, misalnya), dan itu digunakan untuk mengungkapkan gagasan bahwa praktik komputasi modern berarti ada banyak informasi yang tersedia yang dapat dieksploitasi. Ini hampir selalu dalam konteks data yang mengungkapkan informasi tentang konsumen yang, mungkin jika tidak pribadi, tidak segera jelas.

Jadi konotasi dan analisis seputar penggunaan umum "data besar" juga disertai dengan gagasan bahwa data dapat mengungkapkan rincian pribadi seseorang yang tersembunyi, tersembunyi atau bahkan pribadi, asalkan penerapan metode inferensial yang memadai. Ketika media melaporkan data besar, kemunduran anonimitas ini biasanya merupakan penyebabnya - mendefinisikan "data besar" agaknya keliru dalam hal ini, karena pers dan nonspecialis populer tidak memiliki kepedulian terhadap manfaat acak. hutan dan mendukung mesin vektor dan sebagainya, mereka juga tidak memiliki perasaan tentang tantangan analisis data pada skala yang berbeda. Dan ini baik-baik saja.Kekhawatiran dari perspektif mereka berpusat pada konsekuensi sosial, politik dan hukum dari era informasi. Definisi yang tepat untuk media atau non-spesialis tidak terlalu berguna karena pemahaman mereka juga tidak tepat. (Jangan pikir saya sombong - saya hanya mengamati bahwa tidak semua orang bisa menjadi ahli dalam segala hal.)

Pasang kembali Monica
sumber
7
Ini. "Sudah pengalaman saya bahwa sebagian besar penggunaan istilah 'data besar' terjadi di media populer atau dalam komunikasi antara orang-orang yang bukan spesialis dalam statistik atau pembelajaran mesin (bahan pemasaran meminta analisis profesional, misalnya)"
Momo
2
Saya pikir Anda memukul paku di kepala dengan paragraf terakhir Anda. Saya pikir ada perbedaan yang sangat jelas antara pemahaman pers yang populer dan apa yang dipikirkan orang-orang di bidang statistik / ML / Data tentang istilah big data. Saya hanya merasa bahwa perlu ada konsensus yang lebih jelas tentang apa itu sebenarnya. Salah satu alasan untuk itu adalah memiliki referensi sehingga orang tidak dapat memanipulasi istilah atau penyalahgunaan ketika itu jelas tidak berlaku.
Gumeo
1
Saya pikir saya mulai semakin setuju dengan Anda. Saya masih merasa bahwa CV membutuhkan pertanyaan referensi, di mana orang-orang yang tertarik dan menjadi subjek memasukkan dua sen mereka pada masalah ini. Saya mencari pertanyaan di sini dan saya merasa bahwa diskusi ini kurang.
Gumeo
1
Saya pikir ini adalah percakapan yang berharga untuk dimiliki, dan saya senang Anda mengajukan pertanyaan! Dan saya senang Anda menganggap komentar saya bermanfaat.
Pasang kembali Monica
1
Saya suka jawaban ini karena berbagai alasan. Pertama, saya pikir sangat penting untuk menekankan bahwa "data besar" tidak ada hubungannya dengan algoritma yang digunakan untuk menganalisisnya. Kebanyakan dari mereka berumur 20-30 tahun (hutan acak, regresi linier, dan sebagainya) dan mereka bekerja dengan baik. Beberapa orang di industri percaya bahwa "big data" datang bersama dengan algoritma baru yang mewah, karena mereka mungkin bahkan tidak tahu bahwa pembelajaran mesin telah ada selama bertahun-tahun. Kedua, "data besar" bukan tentang ukuran. Jika Anda memiliki server yang tersedia dengan 128 Gb RAM dan dapat memuat semuanya ke dalam memori yang bagus. (lanjutan)
skd
7

masukkan deskripsi gambar di sini

Saat memeriksa ulang literatur besar tentang Big Data, saya telah mengumpulkan hingga 14 istilah "V", 13 di antaranya sekitar 11 dimensi:

  • Keabsahan,
  • Nilai,
  • Variabilitas / Varians,
  • Variasi,
  • Kecepatan,
  • Veracity / Veraciousness,
  • Kelangsungan hidup,
  • Virtualitas,
  • Visualisasi,
  • Keriangan,
  • Volume.

Istilah ke-14 adalah kekosongan. Menurut posting provokatif baru-baru ini, Big Data Tidak Ada . Poin utamanya adalah:

  • "Data Besar" Tidak Besar
  • Kebanyakan "Data Besar" Sebenarnya Tidak Berguna
  • [Kita harus] Memaksimalkan Data Kecil

Definisi Big Data yang tepat akan berkembang dengan perangkat keras, perangkat lunak, kebutuhan dan pengetahuan, dan mungkin tidak harus bergantung pada ukuran tetap. Oleh karena itu, definisi yang jelas dalam Big data: Batas berikutnya untuk inovasi, persaingan, dan produktivitas , Juni 2011:

"Data besar" mengacu pada kumpulan data yang ukurannya di luar kemampuan perangkat lunak basis data khas untuk menangkap, menyimpan, mengelola, dan menganalisis.

Laurent Duval
sumber
1
Artikel referensi "kekosongan" tampaknya sangat lemah. Ada implikasi bahwa 30GB data / hari tidak besar (dan ukuran itu adalah satu-satunya komponen definisi). Lebih lanjut, dikatakan bahwa karena perusahaan mengatakan data mereka jauh lebih besar daripada yang sebenarnya berarti itu tidak besar. Tidak ada definisi besar yang diberikan di mana pun. Dan semua contoh yang digunakan untuk menyarankan "tidak besar" memiliki banyak huruf V yang tercantum di sini.
Yohanes
"Kekosongan" tidak hanya berlaku untuk ukuran. Memang, dalam one-liner terakhir, definisi besar dimaksudkan untuk berkembang dengan kondisi praktik saat ini. Apa yang besar di masa lalu dapat dianggap kecil beberapa tahun kemudian. Di sini, saya menggunakan istilah untuk kasus di mana "data besar" digunakan sebagai mantra ajaib dengan sedikit zat, seperti yang diilustrasikan dalam kartun di atas.
Laurent Duval
1
Seberapa besar kemungkinan 14 kriteria akan dimulai dengan huruf V? Kita semua orang yang berpikiran statistik di sini, ayolah!
Aksakal
Pada dasarnya, saya setuju, ini hanya untuk menunjukkan bahwa istilah seperti Big data lebih cenderung milik bidang pemasaran daripada statistik. Namun, saya ingin berbagi "koleksi" dari istilah yang saya baca. Ini sudah dimulai dengan 3V, lalu 5V, dan kadang-kadang 7 dll. Istilah itu secara samar-samar dapat membantu mengenali sifat-sifat yang dimiliki data
Laurent Duval
4

Orang-orang tampaknya terpaku pada kualifikasi besar dalam Big Data. Namun, ukurannya hanya salah satu komponen dari istilah ini (domain). Tidak cukup bahwa set data Anda besar untuk menyebut masalah Anda (domain) sebagai data besar, Anda juga perlu sulit untuk memahami dan menganalisis dan bahkan memproses. Beberapa orang menyebut fitur ini tidak terstruktur , tetapi bukan hanya strukturnya, tetapi juga hubungan yang tidak jelas antara bagian dan elemen data yang berbeda.

Pertimbangkan kumpulan data yang digunakan fisikawan energi tinggi di tempat-tempat seperti CERN . Mereka telah bekerja dengan data ukuran petabyte selama bertahun-tahun sebelum istilah Big Data diciptakan. Namun bahkan sekarang mereka tidak menyebut data besar ini sejauh yang saya tahu. Mengapa? Karena datanya agak teratur, mereka tahu apa yang harus dilakukan dengannya. Mereka mungkin belum bisa menjelaskan setiap pengamatan, jadi mereka mengerjakan model baru dll.

Sekarang kita menyebut Big Data masalah yang berhubungan dengan set data yang memiliki ukuran yang dapat dihasilkan dalam beberapa detik dari LHC di CERN. Alasannya adalah bahwa set data ini biasanya dari elemen data yang berasal dari banyak sumber dengan format yang berbeda, hubungan yang tidak jelas antara data dan nilai yang tidak pasti untuk bisnis. Bisa jadi hanya 1TB tetapi sangat sulit untuk memproses semua audio, video, teks, ucapan, dll. Jadi, dalam hal kompleksitas dan sumber daya yang diperlukan, ini mengalahkan petabyte data CERN. Kami bahkan tidak tahu apakah ada informasi berguna yang dapat dilihat dalam set data kami.

Oleh karena itu, pemecahan masalah Big Data melibatkan penguraian, mengekstraksi elemen data yang nilainya tidak diketahui, kemudian menghubungkannya satu sama lain. "Mem-parsing" suatu gambar bisa menjadi masalah besar sendiri. Katakanlah, Anda sedang mencari rekaman CCTV dari jalan-jalan kota mencoba untuk melihat apakah orang semakin marah dan apakah itu berdampak pada kecelakaan di jalan yang melibatkan pejalan kaki. Ada satu ton video, Anda menemukan wajah-wajah, mencoba mengukur suasana hati mereka dengan ekspresi, kemudian menghubungkan ini dengan jumlah set data kecelakaan, laporan polisi dll., Semua sambil mengendalikan cuaca (precitipotation, suhu) dan kemacetan lalu lintas .. Anda memerlukan penyimpanan dan alat analisis yang mendukung kumpulan data besar ini dari berbagai jenis, dan dapat secara efisien menghubungkan data satu sama lain.

Big Data adalah masalah analisis yang kompleks di mana kompleksitas bermula dari ukuran tipis dan kompleksitas struktur serta penyandian informasi di dalamnya.

Aksakal
sumber
Masukan yang bagus. Kontras yang Anda berikan antara LHC dan masalah data CCTV adalah sesuatu yang sering orang lewatkan.
Gumeo
3

Saya pikir alasan mengapa orang menjadi bingung tentang apa itu Big Data adalah karena mereka tidak melihat manfaatnya. Nilai Big Data (teknik) tidak hanya pada jumlah data yang dapat Anda kumpulkan, tetapi juga pada Predictive Modelling, yang pada akhirnya lebih penting:

  1. Pemodelan Prediktif sepenuhnya mengubah cara kita melakukan statistik dan prediksi, ini memberi kita wawasan yang lebih besar pada data kita, karena model baru, teknik baru dapat mendeteksi tren dengan lebih baik, suara-suara data, dapat menangkap basis data "multi" -dimensi. Semakin banyak dimensi yang kita miliki dalam basis data, semakin besar peluang kita dapat menciptakan model yang baik. Predictive Modeling adalah jantung dari nilai Big Data.
  2. Big Data (dalam hal ukuran data) adalah langkah awal, dan apakah ada untuk melayani Pemodelan Prediktif dengan: memperkaya database sehubungan dengan: 1. jumlah prediktor (lebih banyak variabel), 2. jumlah pengamatan.

Lebih banyak prediktor karena kita sekarang dapat menangkap data yang tidak mungkin ditangkap sebelumnya (karena daya perangkat keras yang terbatas, kapasitas terbatas untuk bekerja pada data yang tidak terstruktur). Semakin banyak prediktor berarti semakin banyak peluang untuk memiliki prediktor yang signifikan, yaitu model yang lebih baik, prediksi yang lebih baik, keputusan yang lebih baik dapat dibuat untuk bisnis.

Lebih banyak pengamatan tidak hanya membuat model lebih kuat dari waktu ke waktu, tetapi juga membantu model mempelajari / mendeteksi setiap pola yang mungkin yang dapat disajikan / dihasilkan dalam kenyataan.

Metariat
sumber
3

Hal yang rumit tentang Big Data vs. antonimnya (mungkin Small Data?) Adalah bahwa ia adalah sebuah rangkaian. Data orang besar telah pergi ke satu sisi spektrum, data orang kecil telah pergi ke yang lain, tetapi tidak ada garis yang jelas di pasir bahwa semua orang dapat setuju.

Saya akan melihat perbedaan perilaku di antara keduanya. Dalam situasi data kecil, Anda memiliki dataset "kecil", dan Anda berusaha memeras informasi sebanyak mungkin dari setiap titik data yang Anda bisa. Dapatkan lebih banyak data, Anda bisa mendapatkan lebih banyak hasil. Namun, mendapatkan lebih banyak data bisa mahal. Data yang dikumpulkan sering terkendala agar sesuai dengan model matematika, seperti melakukan pengujian faktorial parsial untuk menyaring perilaku yang menarik.

Dalam situasi data besar, Anda memiliki dataset "besar", tetapi dataset Anda cenderung tidak dibatasi. Anda biasanya tidak bisa meyakinkan pelanggan Anda untuk membeli furnitur latin-square, hanya untuk membuat analisis lebih mudah. Sebaliknya, Anda cenderung memiliki banyak data yang terstruktur. Untuk mengatasi masalah ini, tujuannya cenderung bukan "memilih data terbaik, dan memeras semua yang Anda bisa dari itu," seperti orang mungkin mencoba secara naif jika digunakan untuk data kecil. Tujuannya cenderung lebih seperti "jika Anda bisa mendapatkan sedikit saja dari setiap titik data, jumlahnya akan sangat besar dan mendalam."

Di antara mereka terletak set data berukuran sedang, dengan struktur oke. Ini adalah "masalah yang sangat sulit," jadi saat ini kita cenderung untuk mengorganisir menjadi dua kubu: satu dengan data kecil memeras setiap bit terakhir dari itu, dan yang lainnya dengan data besar berusaha mengelola untuk membiarkan setiap titik data bersinar di sendiri Baik. Saat kami bergerak maju, saya berharap untuk melihat lebih banyak proses data kecil mencoba beradaptasi dengan kumpulan data yang lebih besar, dan lebih banyak proses data besar mencoba beradaptasi untuk meningkatkan data yang lebih terstruktur.

Cort Ammon
sumber
Karakterisasi data kecil Anda sangat mirip dengan buku analisis Bem. Silakan lihat kritik tentang itu karena ini adalah cara yang tidak tepat untuk memperlakukan kumpulan data kecil selain untuk eksplorasi pribadi yang menjadi dasar pengumpulan data di masa depan.
John
@ John saya mungkin harus melihat itu. Apakah kritik cukup sehingga saya bahkan tidak bisa menggunakan karakterisasi sebagai titik untuk menggambarkan kontinum?
Cort Ammon
Sangat lama untuk masuk ke sini tetapi pesan penting adalah bahwa Anda tidak memeras semua yang Anda bisa dari setiap titik data dengan data kecil. Mungkin google Gelman dan Forking Paths; atau, bereksperimen dengan derajat kebebasan. Anda harus berpikir tentang analisis data kecil dan besar secara berbeda, tidak hanya sebagai titik pada sebuah kontinum.
John
3

Saya akan mengatakan ada tiga komponen yang penting dalam mendefinisikan data besar: arah analisis, ukuran data berkenaan dengan populasi, dan ukuran data berkenaan dengan masalah komputasi.

Pertanyaan itu sendiri mengemukakan bahwa hipotesis dikembangkan setelah data ada. Saya tidak menggunakan "collected" karena menganggap kata "collected" menyiratkan untuk suatu tujuan dan data sering ada tanpa tujuan yang diketahui pada saat itu. Pengumpulan sering terjadi dalam data besar dengan menyatukan data yang ada untuk melayani suatu pertanyaan.

Bagian penting kedua adalah bahwa itu bukan sembarang data yang analisis post hoc, apa yang orang sebut analisis eksplorasi dengan dataset yang lebih kecil, adalah tepat. Perlu ukuran yang cukup sehingga diyakini bahwa perkiraan yang dikumpulkan dari itu cukup dekat dengan perkiraan populasi sehingga banyak masalah sampel yang lebih kecil dapat diabaikan. Karena ini saya sedikit khawatir bahwa ada dorongan sekarang di lapangan menuju beberapa koreksi perbandingan. Jika Anda memiliki seluruh populasi, atau perkiraan bahwa Anda memiliki alasan kuat untuk meyakini valid, koreksi seperti itu harus diperdebatkan. Sementara saya menyadari bahwa memang kadang-kadang muncul masalah yang benar-benar mengubah "data besar" menjadi sampel kecil (misalnya regresi logistik besar), yang berujung pada pemahaman apa sampel besar untuk pertanyaan tertentu. Banyak pertanyaan perbandingan berganda seharusnya diubah menjadi pertanyaan ukuran efek. Dan, tentu saja, seluruh gagasan Anda akan menggunakan tes dengan alpha = 0,05, seperti yang masih banyak dilakukan dengan data besar, hanya tidak masuk akal.

Dan akhirnya, populasi kecil tidak memenuhi syarat. Dalam beberapa kasus ada populasi kecil dan satu dapat mengumpulkan semua data yang diperlukan untuk memeriksanya dengan sangat mudah dan memungkinkan dua kriteria pertama dipenuhi. Data harus cukup besar sehingga menjadi masalah komputasi. Dengan demikian, dalam beberapa hal kita harus mengakui bahwa "data besar" mungkin merupakan kata yang sementara dan mungkin sebuah fenomena yang terus-menerus mencari definisi yang ketat. Beberapa hal yang menjadikan "big data" besar sekarang akan hilang dalam beberapa tahun singkat dan definisi seperti Hadley, berdasarkan kapasitas komputer, akan tampak aneh. Tetapi pada tingkat lain masalah komputasi adalah pertanyaan yang bukan tentang kapasitas komputer atau mungkin tentang kapasitas komputer yang tidak pernah dapat diatasi. Saya pikir dalam hal itu masalah mendefinisikan "

Orang mungkin mencatat bahwa saya belum memberikan contoh atau definisi tegas tentang apa masalah komputasi yang sulit untuk domain ini (ada banyak contoh umumnya dalam sci compi, dan beberapa yang berlaku, yang tidak akan saya bahas). Saya tidak ingin membuatnya karena saya pikir itu harus tetap agak terbuka. Seiring waktu, karya-karya yang dikumpulkan dari banyak orang datang bersama untuk membuat hal-hal seperti itu mudah, lebih sering melalui pengembangan perangkat lunak daripada perangkat keras pada saat ini. Mungkin bidang harus matang lebih penuh untuk membuat persyaratan terakhir ini lebih solid tetapi ujung-ujungnya selalu fuzzy.

John
sumber
terima kasih atas masukan Anda! Saya pikir Anda memberikan wawasan berharga untuk utas ini. Saya pikir ukuran data wrt populasi agak diabaikan di sini.
Gumeo
1

Wikipedia memberikan definisi yang cukup jelas

Big data adalah istilah luas untuk set data yang begitu besar atau kompleks sehingga aplikasi pemrosesan data tradisional tidak memadai. (sumber https://en.wikipedia.org/wiki/Big_data )

definisi sederhana lain yang saya tahu adalah

Data yang tidak sesuai dengan memori komputer.

Sayangnya saya tidak ingat referensi untuk itu. Segala sesuatu yang lain muncul dari definisi ini - Anda harus berurusan dengan sejumlah besar data.

Tim
sumber
0

Saya ingin menambahkan bahwa Big Data adalah referensi untuk bekerja pada kumpulan data besar (jutaan dan / atau miliaran baris) atau mencoba mencari informasi / pola pada sumber daya data luas yang dapat Anda kumpulkan sekarang di mana-mana.

Yohan Obadia
sumber