Atau lebih tepatnya "apakah itu"? Big Data menjadikan statistik dan pengetahuan yang relevan menjadi lebih penting tetapi tampaknya tidak mendukung Teori Sampling.
Saya telah melihat hype ini di sekitar 'Big Data' dan saya bertanya-tanya bahwa "mengapa" saya ingin menganalisis semuanya ? Apakah tidak ada alasan untuk "Teori Pengambilan Sampel" untuk dirancang / diterapkan / ditemukan / ditemukan? Saya tidak mengerti maksud menganalisis seluruh 'populasi' dataset. Hanya karena Anda dapat melakukannya bukan berarti Anda harus melakukannya (Kebodohan adalah hak istimewa tetapi Anda tidak boleh menyalahgunakannya :)
Jadi pertanyaan saya adalah ini: Apakah relevan secara statistik untuk menganalisis seluruh kumpulan data? Yang terbaik yang bisa Anda lakukan adalah meminimalkan kesalahan jika Anda melakukan sampling. Tetapi apakah biaya meminimalkan kesalahan itu benar-benar layak? Apakah "nilai informasi" benar-benar sepadan dengan usaha, biaya waktu, dll. Yang digunakan untuk menganalisis data besar melalui komputer paralel masif?
Bahkan jika seseorang menganalisis seluruh populasi, hasilnya masih akan menjadi tebakan terbaik dengan probabilitas yang lebih tinggi untuk menjadi benar. Mungkin sedikit lebih tinggi daripada pengambilan sampel (atau akankah lebih banyak?) Apakah wawasan yang diperoleh dari menganalisis populasi vs menganalisis sampel sangat berbeda?
Atau haruskah kita menerimanya sebagai "waktu telah berubah"? Pengambilan sampel sebagai aktivitas dapat menjadi kurang penting mengingat kekuatan komputasi yang cukup :)
Catatan: Saya tidak mencoba memulai debat tetapi mencari jawaban untuk memahami mengapa data besar melakukan apa (misal menganalisis semuanya) dan mengabaikan teori pengambilan sampel (atau tidak?)
Jawaban:
Singkatnya, ya . Saya percaya masih ada situasi yang jelas di mana pengambilan sampel sesuai, di dalam dan tanpa dunia "data besar", tetapi sifat data besar tentu saja akan mengubah pendekatan kami terhadap pengambilan sampel, dan kami akan menggunakan lebih banyak kumpulan data yang hampir melengkapi representasi yang mendasari populasi.
Mengenai pengambilan sampel: Bergantung pada keadaan, hampir selalu menjadi jelas jika pengambilan sampel adalah hal yang tepat untuk dilakukan. Pengambilan sampel bukanlah kegiatan yang bermanfaat secara inheren; itu hanya apa yang kita lakukan karena kita perlu melakukan pengorbanan pada biaya pelaksanaan pengumpulan data. Kami mencoba untuk mengkarakterisasi populasi dan perlu memilih metode yang tepat untuk mengumpulkan dan menganalisis data tentang populasi. Pengambilan sampel masuk akal ketika biaya marjinal dari metode pengumpulan data atau pemrosesan data tinggi. Berusaha menjangkau 100% populasi bukanlah penggunaan sumber daya yang baik dalam kasus itu, karena Anda seringkali lebih baik mengatasi hal-hal seperti bias non-respons daripada membuat sedikit peningkatan kesalahan pengambilan sampel secara acak.
Bagaimana perbedaan big data? "Data besar" menjawab banyak pertanyaan yang sama dengan yang kami miliki selama berabad-abad, tetapi yang "baru" adalah bahwa pengumpulan data terjadi karena proses yang dimediasi komputer, sehingga biaya marjinal pengumpulan data pada dasarnya nol. Ini secara dramatis mengurangi kebutuhan kita akan pengambilan sampel.
Kapan kita masih menggunakan sampling? Jika populasi "data besar" Anda adalah populasi yang tepat untuk masalah tersebut, maka Anda hanya akan menggunakan pengambilan sampel dalam beberapa kasus: kebutuhan untuk menjalankan grup eksperimental yang terpisah, atau jika volume data semata-mata terlalu besar untuk ditangkap dan diproses (banyak dari kita dapat menangani jutaan baris data dengan mudah saat ini, sehingga batas di sini semakin jauh keluar). Jika sepertinya saya menolak pertanyaan Anda, itu mungkin karena saya jarang mengalami situasi di mana volume data menjadi perhatian dalam tahap pengumpulan atau pemrosesan, meskipun saya tahu banyak yang memiliki
Situasi yang tampaknya sulit bagi saya adalah ketika populasi "data besar" Anda tidak dengan sempurna mewakili populasi target Anda, jadi pengorbanannya adalah lebih banyak apel untuk jeruk. Katakanlah Anda adalah perencana transportasi regional, dan Google telah menawarkan untuk memberi Anda akses ke log navigasi GPS Android untuk membantu Anda. Meskipun dataset tidak diragukan lagi akan menarik untuk digunakan, populasi mungkin akan secara sistematis bias terhadap masyarakat berpenghasilan rendah, pengguna transportasi umum, dan lansia. Dalam situasi seperti itu, buku harian perjalanan tradisional dikirim ke sampel rumah tangga acak, meskipun jumlahnya lebih mahal dan lebih kecil, masih bisa menjadi metode pengumpulan data yang unggul. Tapi, ini bukan hanya pertanyaan "pengambilan sampel vs data besar", itu
sumber
Meskipun mungkin ada banyak Data Besar yang diproduksi oleh perangkat seluler dan semacamnya, ada sedikit data yang dapat digunakan di dalamnya. Jika Anda ingin memprediksi pola perjalanan perkotaan menggunakan foursquare, Anda mungkin tidak aktif dengan urutan besarnya dalam perkiraan arus. Lebih buruk lagi, Anda tidak akan tahu apakah Anda melebih-lebihkan atau meremehkan aliran ini. Anda bisa mendapatkan gambaran yang benar-benar akurat tentang pola perjalanan perkotaan dari pengguna maniak foursquare, tetapi kecuali semua orang diharuskan (1) untuk menjaga smartphone yang berfungsi, (2) untuk menjalankan aplikasi foursquare sepanjang waktu, dan (3) untuk mendaftar di di mana pun mereka menginap selama lebih dari 10 menit (yaitu, dapatkan Sensus elektronik; biarkan libertarian mengeluh tentang Google dan Facebook mengetahui segala sesuatu tentang Anda), data Anda akan mengandung bias yang tidak diketahui, dan Deweys elektronik Anda akan terus mengalahkan kata sebenarnya Truman (dapat diklik):
(sumber: whatisasurvey.info )
Jika ada, saya berharap potongan sejarah ini akan terulang kembali, dan beberapa ramalan "bir + popok" besar yang dihasilkan dari Big Data akan dibatalkan oleh para peneliti menggunakan pendekatan pengambilan sampel yang lebih ketat. Hal ini mengejutkan bahwa survei berbasis probabilitas tetap akurat bahkan meskipun tingkat respons jatuh.
sumber
Kapan pun seseorang menerapkan teknik inferensi statistik, penting untuk memperjelas populasi yang ingin diambil kesimpulannya. Sekalipun data yang telah dikumpulkan sangat besar, data itu mungkin masih berhubungan hanya dengan sebagian kecil populasi, dan mungkin tidak terlalu mewakili keseluruhan.
Misalkan misalnya bahwa perusahaan yang beroperasi di industri tertentu telah mengumpulkan 'data besar' pada pelanggannya di negara tertentu. Jika ingin menggunakan data itu untuk menarik kesimpulan tentang pelanggan yang ada di negara itu, maka pengambilan sampel mungkin tidak terlalu relevan. Namun jika ingin menarik kesimpulan tentang populasi yang lebih besar - pelanggan potensial atau yang sudah ada, atau pelanggan di negara lain - maka menjadi penting untuk mempertimbangkan sejauh mana pelanggan tentang siapa data yang telah dikumpulkan mewakili - mungkin dalam pendapatan, usia , jenis kelamin, pendidikan, dll - dari populasi yang lebih besar.
Dimensi waktu juga perlu dipertimbangkan. Jika tujuannya adalah menggunakan inferensi statistik untuk mendukung prediksi, maka populasi harus dipahami meluas ke masa depan. Jika demikian, maka sekali lagi menjadi penting untuk mempertimbangkan apakah set data, seberapa besar, diperoleh dalam keadaan yang mewakili mereka yang mungkin memperoleh di masa depan.
sumber
Dari apa yang saya lihat tentang big data / ML menggila, berpikir tentang pengambilan sampel dan populasi dari mana sampel Anda diambil sama pentingnya dengan sebelumnya - tetapi berpikir tentang lebih sedikit.
Saya "mengaudit" kelas Stanford ML, dan sejauh ini kami telah membahas regresi dan jaringan saraf dengan sedikit menyebutkan inferensi populasi. Karena kelas ini telah diambil oleh orang-orang bernilai 6 angka, sekarang ada banyak orang di luar sana yang tahu bagaimana cara menyesuaikan data dengan sangat baik tanpa gagasan tentang sampel.
sumber
Ya, pengambilan sampel relevan dan akan tetap relevan. Intinya adalah bahwa keakuratan estimasi statistik pada umumnya adalah fungsi dari ukuran sampel, bukan populasi yang ingin kita generalisasi. Jadi rata-rata atau proporsi rata-rata yang dihitung dari sampel 1.000 responden akan menghasilkan perkiraan akurasi tertentu (berkenaan dengan seluruh populasi dari mana kami sampel), terlepas dari ukuran populasi (atau "seberapa besar" " big data "are).
Karena itu: Ada masalah dan tantangan spesifik yang relevan dan harus disebutkan:
Anda dapat melihat 'Revolusi Data Besar' kami di sini.
sumber
Banyak metode big data sebenarnya dirancang di sekitar pengambilan sampel.
Pertanyaannya harus lebih pada baris:
Banyak hal "data besar" masih cukup segar, dan terkadang naif. K-means misalnya dapat diparalelkan secara sepele, dan dengan demikian berfungsi untuk "big data" (Saya tidak akan berbicara tentang hasilnya, mereka tidak terlalu berarti; dan mungkin tidak jauh berbeda dengan yang diperoleh pada sampel!). Sejauh yang saya tahu inilah yang dilakukan implementasi k-means di Mahout.
Namun, penelitian melampaui paralelisasi naif (yang mungkin masih membutuhkan sejumlah besar iterasi) dan mencoba melakukan K-means dalam jumlah iterasi yang tetap . Contoh untuk ini:
Ene, A. dan Im, S. dan Moseley, B.
Prosiding konferensi internasional ACM SIGKDD ke 17 tentang Penemuan Pengetahuan dan Penambangan Data, 2011
Dan coba tebak, pendekatan mereka sangat didasarkan pada pengambilan sampel .
Contoh berikutnya: Hutan keputusan . Itu pada dasarnya: untuk beberapa sampel dari set data, buatlah pohon keputusan masing-masing. Dapat lagi diparalelkan secara sepele: letakkan setiap sampel pada mesin yang terpisah. Dan lagi, ini adalah pendekatan berbasis sampel.
Jadi pengambilan sampel adalah salah satu bahan utama pendekatan big data!
Dan tidak ada yang salah dengan ini.
sumber
Validasi silang adalah contoh spesifik dari sub-sampling yang cukup penting dalam ML / data besar. Secara umum, data besar biasanya masih merupakan sampel dari suatu populasi, seperti yang disebutkan orang lain di sini.
Tapi, saya pikir OP mungkin secara khusus merujuk pada pengambilan sampel karena berlaku untuk eksperimen terkontrol, dibandingkan data pengamatan. Biasanya data besar dianggap sebagai yang terakhir, tetapi bagi saya setidaknya ada pengecualian. Saya akan memikirkan uji coba secara acak, pengujian A / B, dan bandit multiarmed dalam pengaturan e-commerce dan jejaring sosial sebagai contoh "pengambilan sampel dalam pengaturan data besar."
sumber
Di area di mana Big Data mulai populer: Pencarian, Periklanan, Sistem Rekomendasi seperti Amazon, Netflix, ada insentif yang sangat besar untuk menjelajahi seluruh kumpulan data.
Tujuan dari sistem ini adalah untuk menyesuaikan rekomendasi / saran untuk setiap anggota populasi. Juga, jumlah atribut yang dipelajari sangat besar. Sistem analisis web rata-rata dapat mengukur rasio klik-tayang, "pelacakan termal" dari "area panas" di halaman, interaksi sosial, dll. Dan menimbang ini terhadap sejumlah besar tujuan yang telah ditentukan sebelumnya.
Lebih penting lagi, sebagian besar tempat di mana Big Data sekarang ada di mana-mana adalah aliran data "online" yaitu data terus ditambahkan / diperbarui. Merancang skema pengambilan sampel yang mencakup semua atribut ini tanpa bias yang melekat dan masih memberikan hasil yang menjanjikan (baca margin yang lebih baik) adalah sebuah tantangan.
Pengambilan sampel masih sangat relevan untuk survei, uji medis, pengujian A / B, jaminan kualitas.
Singkatnya, pengambilan sampel sangat berguna ketika populasi yang akan diteliti sangat besar dan Anda tertarik dengan sifat makroskopik populasi tersebut. Pengecekan 100% (Big Data) diperlukan untuk mengeksploitasi sifat mikroskopis sistem
Semoga ini membantu :)
sumber