Saya telah ditanya beberapa kali pertanyaan:
Apa itu Big-Data?
Baik oleh siswa dan kerabat saya yang mengambil buzz di sekitar statistik dan ML.
Saya menemukan posting CV ini . Dan saya merasa saya setuju dengan satu-satunya jawaban di sana.
The halaman Wikipedia juga memiliki beberapa komentar tentang itu, tapi saya tidak yakin apakah saya benar-benar setuju dengan semua ada.
EDIT: (Saya merasa bahwa halaman Wikipedia kurang dalam menjelaskan metode untuk mengatasi ini dan paradigma yang saya sebutkan di bawah) .
Saya baru-baru ini menghadiri kuliah oleh Emmanuel Candès , di mana ia memperkenalkan paradigma Big-Data sebagai
Kumpulkan data terlebih dahulu Ajukan pertanyaan nanti
Ini adalah perbedaan utama dari penelitian yang didorong oleh hipotesis, di mana Anda pertama kali merumuskan hipotesis dan kemudian mengumpulkan data untuk mengatakan sesuatu tentang hal itu.
Dia pergi banyak ke masalah mengukur keandalan hipotesis yang dihasilkan oleh pengintaian data. Hal utama yang saya ambil dari kuliahnya adalah bahwa kita benar-benar harus mulai mengendalikan FDR dan dia mempresentasikan metode tiruan untuk melakukannya.
Saya pikir CV harus memiliki pertanyaan tentang apa itu Big-Data dan apa definisi Anda tentang itu. Saya merasa ada begitu banyak "definisi" yang berbeda , sehingga sulit untuk benar-benar memahami apa itu, atau menjelaskannya kepada orang lain, jika tidak ada konsensus umum tentang apa itu terdiri.
Saya merasa bahwa "definisi / paradigma / deskripsi" yang diberikan oleh Candès adalah hal terdekat yang saya setujui, apa pendapat Anda?
EDIT2: Saya merasa bahwa jawabannya harus memberikan sesuatu yang lebih dari sekadar penjelasan tentang data itu sendiri. Ini harus merupakan kombinasi dari data / metode / paradigma.
EDIT3: Saya merasa bahwa wawancara dengan Michael Jordan ini dapat menambahkan sesuatu ke meja juga.
EDIT4: Saya memutuskan untuk memilih jawaban tertinggi sebagai yang benar. Meskipun saya berpikir bahwa semua jawaban menambah sesuatu ke dalam diskusi dan saya pribadi merasa bahwa ini lebih merupakan pertanyaan tentang paradigma bagaimana kita menghasilkan hipotesis dan bekerja dengan data. Saya harap pertanyaan ini akan menjadi kumpulan referensi bagi mereka yang mencari Big-Data. Saya harap halaman Wikipedia akan diubah untuk lebih menekankan masalah perbandingan multipel dan kontrol FDR.
sumber
Jawaban:
Saya merasa senang menghadiri kuliah yang diberikan oleh Dr. Hadley Wickham, dari RStudio ketenaran. Dia mendefinisikannya sedemikian rupa sehingga
Hadley juga percaya bahwa sebagian besar data setidaknya dapat direduksi menjadi masalah yang dapat dikelola, dan bahwa jumlah yang sangat kecil sebenarnya adalah data besar. Dia menyatakan ini sebagai "Big Data Mirage".
Slide dapat ditemukan di sini .
sumber
Kumpulan / aliran data disebut Big Data, jika memenuhi keempat V
Kecuali dan sampai tidak puas, set data tidak dapat disebut sebagai Big Data.
Jawaban saya yang serupa, untuk referensi.
Karena itu, sebagai ilmuwan data; Saya menemukan kerangka kerja Peta-Mengurangi benar-benar bagus. Memisahkan data Anda, memetakannya dan kemudian hasil langkah mapper direduksi menjadi satu hasil. Saya menemukan kerangka kerja ini benar-benar menarik, dan bagaimana hal itu menguntungkan dunia data.
Dan ini adalah beberapa cara bagaimana saya menangani masalah data selama pekerjaan saya sehari-hari:
Dan inilah cara eksperimen data dilakukan:
Ya, ada algoritma Big Data seperti hyper loglog, dll; tapi saya belum menemukan kebutuhan untuk menggunakannya.
Jadi iya. Data dikumpulkan terlebih dahulu sebelum menghasilkan hipotesis.
sumber
Saya pikir satu-satunya definisi big data yang berguna adalah data yang mengatalogkan semua informasi tentang fenomena tertentu. Yang saya maksud dengan itu adalah bahwa alih-alih mengambil sampel dari beberapa populasi yang menarik dan mengumpulkan beberapa pengukuran pada unit-unit itu, data besar mengumpulkan pengukuran pada seluruh populasi yang diminati. Misalkan Anda tertarik dengan pelanggan Amazon.com. Sangat layak bagi Amazon.com untuk mengumpulkan informasi tentang semua pembelian pelanggan mereka, daripada hanya melacak beberapa pengguna atau hanya melacak beberapa transaksi.
Menurut saya, definisi yang bergantung pada ukuran memori dari data itu sendiri menjadi utilitas yang agak terbatas. Dengan metrik itu, diberikan komputer yang cukup besar, tidak ada data yang sebenarnya adalah data besar. Pada tingkat ekstrem komputer yang sangat besar, argumen ini mungkin tampak reduktif, tetapi pertimbangkan untuk membandingkan laptop kelas konsumen saya dengan server Google. Jelas saya memiliki masalah logistik yang sangat besar yang berusaha untuk menyaring data terabyte, tetapi Google memiliki sumber daya untuk mengatur tugas itu dengan mudah. Lebih penting lagi, ukuran komputer Anda bukan properti intrinsik dari data , jadi mendefinisikan data semata-mata mengacu pada teknologi apa pun yang Anda miliki adalah semacam mengukur jarak dalam hal panjang lengan Anda.
Argumen ini bukan hanya formalisme. Kebutuhan akan skema paralelisasi yang rumit dan platform komputasi terdistribusi menghilang begitu Anda memiliki kekuatan komputasi yang memadai. Jadi jika kita menerima definisi bahwa Big Data terlalu besar untuk masuk ke dalam RAM (atau crash Excel, atau apa pun), maka setelah kita meningkatkan mesin kami, Big Data tidak ada lagi. Ini terlihat konyol.
Tetapi mari kita lihat beberapa data tentang data besar, dan saya akan menyebutnya "Metadata Besar." Posting blog ini mengamati tren penting: RAM yang tersedia meningkat lebih cepat daripada ukuran data, dan secara provokatif mengklaim bahwa "RAM Besar memakan Data Besar" - yaitu, dengan infrastruktur yang memadai, Anda tidak lagi memiliki masalah data besar, Anda hanya perlu punya data, dan Anda kembali ke domain metode analisis konvensional.
Selain itu, metode representasi yang berbeda akan memiliki ukuran yang berbeda, sehingga tidak jelas apa artinya memiliki "data besar" yang ditentukan sehubungan dengan ukurannya dalam memori. Jika data Anda dibuat sedemikian rupa sehingga banyak informasi yang berlebihan disimpan (yaitu, Anda memilih pengkodean yang tidak efisien), Anda dapat dengan mudah melewati ambang batas yang dapat ditangani oleh komputer Anda. Tetapi mengapa Anda ingin definisi memiliki properti ini? Menurut saya, apakah kumpulan data itu adalah "data besar" seharusnya tidak bergantung pada apakah Anda membuat pilihan yang efisien dalam desain penelitian atau tidak.
Dari sudut pandang seorang praktisi, data besar seperti yang saya definisikan juga disertai dengan persyaratan komputasi, tetapi persyaratan ini khusus untuk aplikasi. Berpikir melalui desain basis data (perangkat lunak, perangkat keras, organisasi) untuk pengamatan sangat berbeda dari untuk10 7104 107 pengamatan, dan itu baik-baik saja. Ini juga menyiratkan bahwa data besar, seperti yang saya definisikan, mungkin tidak memerlukan teknologi khusus di luar apa yang telah kami kembangkan dalam statistik klasik: sampel dan interval kepercayaan masih sangat berguna dan alat inferensial yang valid ketika Anda perlu melakukan ekstrapolasi. Model linier dapat memberikan jawaban yang dapat diterima untuk beberapa pertanyaan. Tapi data besar seperti yang saya definisikan mungkin memerlukan teknologi baru. Mungkin Anda perlu mengklasifikasikan data baru dalam situasi di mana Anda memiliki lebih banyak prediktor daripada data pelatihan, atau di mana prediktor Anda tumbuh dengan ukuran data Anda. Masalah-masalah ini akan membutuhkan teknologi yang lebih baru.
Sebagai tambahan, saya pikir pertanyaan ini penting karena secara implisit menyentuh mengapa definisi itu penting - yaitu, untuk siapa Anda mendefinisikan topik. Diskusi tambahan untuk siswa kelas pertama tidak dimulai dengan teori himpunan, itu dimulai dengan referensi untuk menghitung objek fisik. Sudah pengalaman saya bahwa sebagian besar penggunaan istilah "data besar" terjadi di media populer atau dalam komunikasi antara orang-orang yang bukan spesialis dalam statistik atau pembelajaran mesin (bahan pemasaran meminta analisis profesional, misalnya), dan itu digunakan untuk mengungkapkan gagasan bahwa praktik komputasi modern berarti ada banyak informasi yang tersedia yang dapat dieksploitasi. Ini hampir selalu dalam konteks data yang mengungkapkan informasi tentang konsumen yang, mungkin jika tidak pribadi, tidak segera jelas.
Jadi konotasi dan analisis seputar penggunaan umum "data besar" juga disertai dengan gagasan bahwa data dapat mengungkapkan rincian pribadi seseorang yang tersembunyi, tersembunyi atau bahkan pribadi, asalkan penerapan metode inferensial yang memadai. Ketika media melaporkan data besar, kemunduran anonimitas ini biasanya merupakan penyebabnya - mendefinisikan "data besar" agaknya keliru dalam hal ini, karena pers dan nonspecialis populer tidak memiliki kepedulian terhadap manfaat acak. hutan dan mendukung mesin vektor dan sebagainya, mereka juga tidak memiliki perasaan tentang tantangan analisis data pada skala yang berbeda. Dan ini baik-baik saja.Kekhawatiran dari perspektif mereka berpusat pada konsekuensi sosial, politik dan hukum dari era informasi. Definisi yang tepat untuk media atau non-spesialis tidak terlalu berguna karena pemahaman mereka juga tidak tepat. (Jangan pikir saya sombong - saya hanya mengamati bahwa tidak semua orang bisa menjadi ahli dalam segala hal.)
sumber
Saat memeriksa ulang literatur besar tentang Big Data, saya telah mengumpulkan hingga 14 istilah "V", 13 di antaranya sekitar 11 dimensi:
Istilah ke-14 adalah kekosongan. Menurut posting provokatif baru-baru ini, Big Data Tidak Ada . Poin utamanya adalah:
Definisi Big Data yang tepat akan berkembang dengan perangkat keras, perangkat lunak, kebutuhan dan pengetahuan, dan mungkin tidak harus bergantung pada ukuran tetap. Oleh karena itu, definisi yang jelas dalam Big data: Batas berikutnya untuk inovasi, persaingan, dan produktivitas , Juni 2011:
sumber
Orang-orang tampaknya terpaku pada kualifikasi besar dalam Big Data. Namun, ukurannya hanya salah satu komponen dari istilah ini (domain). Tidak cukup bahwa set data Anda besar untuk menyebut masalah Anda (domain) sebagai data besar, Anda juga perlu sulit untuk memahami dan menganalisis dan bahkan memproses. Beberapa orang menyebut fitur ini tidak terstruktur , tetapi bukan hanya strukturnya, tetapi juga hubungan yang tidak jelas antara bagian dan elemen data yang berbeda.
Pertimbangkan kumpulan data yang digunakan fisikawan energi tinggi di tempat-tempat seperti CERN . Mereka telah bekerja dengan data ukuran petabyte selama bertahun-tahun sebelum istilah Big Data diciptakan. Namun bahkan sekarang mereka tidak menyebut data besar ini sejauh yang saya tahu. Mengapa? Karena datanya agak teratur, mereka tahu apa yang harus dilakukan dengannya. Mereka mungkin belum bisa menjelaskan setiap pengamatan, jadi mereka mengerjakan model baru dll.
Sekarang kita menyebut Big Data masalah yang berhubungan dengan set data yang memiliki ukuran yang dapat dihasilkan dalam beberapa detik dari LHC di CERN. Alasannya adalah bahwa set data ini biasanya dari elemen data yang berasal dari banyak sumber dengan format yang berbeda, hubungan yang tidak jelas antara data dan nilai yang tidak pasti untuk bisnis. Bisa jadi hanya 1TB tetapi sangat sulit untuk memproses semua audio, video, teks, ucapan, dll. Jadi, dalam hal kompleksitas dan sumber daya yang diperlukan, ini mengalahkan petabyte data CERN. Kami bahkan tidak tahu apakah ada informasi berguna yang dapat dilihat dalam set data kami.
Oleh karena itu, pemecahan masalah Big Data melibatkan penguraian, mengekstraksi elemen data yang nilainya tidak diketahui, kemudian menghubungkannya satu sama lain. "Mem-parsing" suatu gambar bisa menjadi masalah besar sendiri. Katakanlah, Anda sedang mencari rekaman CCTV dari jalan-jalan kota mencoba untuk melihat apakah orang semakin marah dan apakah itu berdampak pada kecelakaan di jalan yang melibatkan pejalan kaki. Ada satu ton video, Anda menemukan wajah-wajah, mencoba mengukur suasana hati mereka dengan ekspresi, kemudian menghubungkan ini dengan jumlah set data kecelakaan, laporan polisi dll., Semua sambil mengendalikan cuaca (precitipotation, suhu) dan kemacetan lalu lintas .. Anda memerlukan penyimpanan dan alat analisis yang mendukung kumpulan data besar ini dari berbagai jenis, dan dapat secara efisien menghubungkan data satu sama lain.
Big Data adalah masalah analisis yang kompleks di mana kompleksitas bermula dari ukuran tipis dan kompleksitas struktur serta penyandian informasi di dalamnya.
sumber
Saya pikir alasan mengapa orang menjadi bingung tentang apa itu Big Data adalah karena mereka tidak melihat manfaatnya. Nilai Big Data (teknik) tidak hanya pada jumlah data yang dapat Anda kumpulkan, tetapi juga pada Predictive Modelling, yang pada akhirnya lebih penting:
Lebih banyak prediktor karena kita sekarang dapat menangkap data yang tidak mungkin ditangkap sebelumnya (karena daya perangkat keras yang terbatas, kapasitas terbatas untuk bekerja pada data yang tidak terstruktur). Semakin banyak prediktor berarti semakin banyak peluang untuk memiliki prediktor yang signifikan, yaitu model yang lebih baik, prediksi yang lebih baik, keputusan yang lebih baik dapat dibuat untuk bisnis.
Lebih banyak pengamatan tidak hanya membuat model lebih kuat dari waktu ke waktu, tetapi juga membantu model mempelajari / mendeteksi setiap pola yang mungkin yang dapat disajikan / dihasilkan dalam kenyataan.
sumber
Hal yang rumit tentang Big Data vs. antonimnya (mungkin Small Data?) Adalah bahwa ia adalah sebuah rangkaian. Data orang besar telah pergi ke satu sisi spektrum, data orang kecil telah pergi ke yang lain, tetapi tidak ada garis yang jelas di pasir bahwa semua orang dapat setuju.
Saya akan melihat perbedaan perilaku di antara keduanya. Dalam situasi data kecil, Anda memiliki dataset "kecil", dan Anda berusaha memeras informasi sebanyak mungkin dari setiap titik data yang Anda bisa. Dapatkan lebih banyak data, Anda bisa mendapatkan lebih banyak hasil. Namun, mendapatkan lebih banyak data bisa mahal. Data yang dikumpulkan sering terkendala agar sesuai dengan model matematika, seperti melakukan pengujian faktorial parsial untuk menyaring perilaku yang menarik.
Dalam situasi data besar, Anda memiliki dataset "besar", tetapi dataset Anda cenderung tidak dibatasi. Anda biasanya tidak bisa meyakinkan pelanggan Anda untuk membeli furnitur latin-square, hanya untuk membuat analisis lebih mudah. Sebaliknya, Anda cenderung memiliki banyak data yang terstruktur. Untuk mengatasi masalah ini, tujuannya cenderung bukan "memilih data terbaik, dan memeras semua yang Anda bisa dari itu," seperti orang mungkin mencoba secara naif jika digunakan untuk data kecil. Tujuannya cenderung lebih seperti "jika Anda bisa mendapatkan sedikit saja dari setiap titik data, jumlahnya akan sangat besar dan mendalam."
Di antara mereka terletak set data berukuran sedang, dengan struktur oke. Ini adalah "masalah yang sangat sulit," jadi saat ini kita cenderung untuk mengorganisir menjadi dua kubu: satu dengan data kecil memeras setiap bit terakhir dari itu, dan yang lainnya dengan data besar berusaha mengelola untuk membiarkan setiap titik data bersinar di sendiri Baik. Saat kami bergerak maju, saya berharap untuk melihat lebih banyak proses data kecil mencoba beradaptasi dengan kumpulan data yang lebih besar, dan lebih banyak proses data besar mencoba beradaptasi untuk meningkatkan data yang lebih terstruktur.
sumber
Saya akan mengatakan ada tiga komponen yang penting dalam mendefinisikan data besar: arah analisis, ukuran data berkenaan dengan populasi, dan ukuran data berkenaan dengan masalah komputasi.
Pertanyaan itu sendiri mengemukakan bahwa hipotesis dikembangkan setelah data ada. Saya tidak menggunakan "collected" karena menganggap kata "collected" menyiratkan untuk suatu tujuan dan data sering ada tanpa tujuan yang diketahui pada saat itu. Pengumpulan sering terjadi dalam data besar dengan menyatukan data yang ada untuk melayani suatu pertanyaan.
Bagian penting kedua adalah bahwa itu bukan sembarang data yang analisis post hoc, apa yang orang sebut analisis eksplorasi dengan dataset yang lebih kecil, adalah tepat. Perlu ukuran yang cukup sehingga diyakini bahwa perkiraan yang dikumpulkan dari itu cukup dekat dengan perkiraan populasi sehingga banyak masalah sampel yang lebih kecil dapat diabaikan. Karena ini saya sedikit khawatir bahwa ada dorongan sekarang di lapangan menuju beberapa koreksi perbandingan. Jika Anda memiliki seluruh populasi, atau perkiraan bahwa Anda memiliki alasan kuat untuk meyakini valid, koreksi seperti itu harus diperdebatkan. Sementara saya menyadari bahwa memang kadang-kadang muncul masalah yang benar-benar mengubah "data besar" menjadi sampel kecil (misalnya regresi logistik besar), yang berujung pada pemahaman apa sampel besar untuk pertanyaan tertentu. Banyak pertanyaan perbandingan berganda seharusnya diubah menjadi pertanyaan ukuran efek. Dan, tentu saja, seluruh gagasan Anda akan menggunakan tes dengan alpha = 0,05, seperti yang masih banyak dilakukan dengan data besar, hanya tidak masuk akal.
Dan akhirnya, populasi kecil tidak memenuhi syarat. Dalam beberapa kasus ada populasi kecil dan satu dapat mengumpulkan semua data yang diperlukan untuk memeriksanya dengan sangat mudah dan memungkinkan dua kriteria pertama dipenuhi. Data harus cukup besar sehingga menjadi masalah komputasi. Dengan demikian, dalam beberapa hal kita harus mengakui bahwa "data besar" mungkin merupakan kata yang sementara dan mungkin sebuah fenomena yang terus-menerus mencari definisi yang ketat. Beberapa hal yang menjadikan "big data" besar sekarang akan hilang dalam beberapa tahun singkat dan definisi seperti Hadley, berdasarkan kapasitas komputer, akan tampak aneh. Tetapi pada tingkat lain masalah komputasi adalah pertanyaan yang bukan tentang kapasitas komputer atau mungkin tentang kapasitas komputer yang tidak pernah dapat diatasi. Saya pikir dalam hal itu masalah mendefinisikan "
Orang mungkin mencatat bahwa saya belum memberikan contoh atau definisi tegas tentang apa masalah komputasi yang sulit untuk domain ini (ada banyak contoh umumnya dalam sci compi, dan beberapa yang berlaku, yang tidak akan saya bahas). Saya tidak ingin membuatnya karena saya pikir itu harus tetap agak terbuka. Seiring waktu, karya-karya yang dikumpulkan dari banyak orang datang bersama untuk membuat hal-hal seperti itu mudah, lebih sering melalui pengembangan perangkat lunak daripada perangkat keras pada saat ini. Mungkin bidang harus matang lebih penuh untuk membuat persyaratan terakhir ini lebih solid tetapi ujung-ujungnya selalu fuzzy.
sumber
Wikipedia memberikan definisi yang cukup jelas
definisi sederhana lain yang saya tahu adalah
Sayangnya saya tidak ingat referensi untuk itu. Segala sesuatu yang lain muncul dari definisi ini - Anda harus berurusan dengan sejumlah besar data.
sumber
Saya ingin menambahkan bahwa Big Data adalah referensi untuk bekerja pada kumpulan data besar (jutaan dan / atau miliaran baris) atau mencoba mencari informasi / pola pada sumber daya data luas yang dapat Anda kumpulkan sekarang di mana-mana.
sumber