Apa sebenarnya yang dimaksud dengan "kumpulan data"?

10

Apakah itu hanya agregasi poin data? Atau itu representasi titik data untuk elemen yang berbeda dalam format tabel yang disusun dengan nilai-nilai variabel yang berbeda? Apa bedanya dengan data mentah?

ankit
sumber
Apa yang Anda maksud dengan "titik data", apakah Anda mengharapkan setidaknya 2D? Rangkaian waktu atau serangkaian nilai ujian dapat berupa kumpulan data; minimal itu hanya bisa seri dalam satu variabel, mungkin tanpa label baris. Per jawaban dengan @FranckDernoncourt
smci
1
Saya benar-benar berpikir itu hanya kumpulan data. Itu tentu cara saya menggunakan istilah itu. Saya tidak berpikir ada terlalu banyak untuk ini. Apakah data itu "mentah" atau diproses sebelumnya atau dibersihkan, dll., Adalah ortogonal.
gung - Reinstate Monica

Jawaban:

9

Dalam pengalaman saya, "dataset" (atau "kumpulan data") adalah istilah informal yang merujuk pada kumpulan data. Secara umum dataset berisi lebih dari satu variabel dan menyangkut satu topik; itu mungkin menyangkut satu sampel.

Kesalahan yang sering saya lihat pada penulis pertanyaan Cross Validated adalah menggunakan "dataset" sebagai sinonim untuk "variabel" atau "vektor".

Kodiologis
sumber
3
Setuju pada dataset vs variabel atau vektor. Jangan mulai saya pada "data", seperti pada "Saya punya data". Sebaliknya, "Saya punya dataset" adalah cara yang bagus untuk tidak membuat jengkel, baik menjengkelkan mereka yang bersikeras bahwa data itu jamak atau menjengkelkan mereka yang menganggap desakan itu sebagai sesuatu yang bertele-tele, jika mereka memikirkannya sama sekali.
Nick Cox
3
@NickCox Dalam perang tata bahasa atas "data", saya berada di faksi yang paling tidak populer, yang mengklaim bahwa "data" adalah kata benda massal.
Kodiologist
3
Saya menduga itu mayoritas sekarang dan lebih kuat berpikir itu mendapatkan popularitas.
Nick Cox
8

Saya pikir Wikipedia melakukan pekerjaan yang layak dalam mendefinisikannya:

Paling umum satu set data sesuai dengan isi tabel database tunggal, atau matriks data statistik tunggal, di mana setiap kolom tabel mewakili variabel tertentu, dan setiap baris sesuai dengan anggota tertentu dari set data yang dipertanyakan. Kumpulan data mencantumkan nilai untuk setiap variabel, seperti tinggi dan berat objek, untuk setiap anggota kumpulan data. Setiap nilai dikenal sebagai datum. Kumpulan data dapat terdiri dari data untuk satu atau lebih anggota, sesuai dengan jumlah baris.

Kumpulan data istilah juga dapat digunakan lebih longgar, untuk merujuk ke data dalam kumpulan tabel terkait erat, yang sesuai dengan eksperimen atau acara tertentu. Contoh dari jenis ini adalah kumpulan data yang dikumpulkan oleh lembaga ruang angkasa yang melakukan eksperimen dengan instrumen di atas pesawat ruang angkasa.

Dalam disiplin data terbuka, dataset adalah unit untuk mengukur informasi yang dirilis dalam repositori data terbuka publik. Portal Data Terbuka Eropa mengumpulkan lebih dari setengah juta kumpulan data. Dalam bidang ini definisi lain telah diusulkan tetapi saat ini tidak ada definisi resmi. Beberapa masalah lain (sumber data real-time, dataset non-relasional, dll.) Meningkatkan kesulitan untuk mencapai konsensus tentang hal itu.

Seperti yang Anda lihat, istilahnya agak kabur.

Franck Dernoncourt
sumber
Dan dalam pengaturan visi komputer, satu set data dapat berupa kumpulan gambar alami dan label atau anotasi mereka.
Sycorax berkata Reinstate Monica
Apa yang dimaksud dengan "database *?
ankit
@ankit Makna CS tradisional en.wikipedia.org/wiki/Database
Franck Dernoncourt
@ Scorax Ya, saya kira kita bisa mempertimbangkan satu gambar (atau sinyal lain) sebagai satu gumpalan datum dalam database.
Franck Dernoncourt
7

Saya pikir Anda mungkin perlu mendefinisikan titik data sebelum Anda dapat menetapkan kumpulan data : mengapa satu primitif dan tidak memerlukan definisi, tetapi tidak sebaliknya?

Setidaknya dua definisi masuk akal bagi saya:

  1. Satu atau lebih pengamatan (kasus, catatan, baris) untuk satu atau lebih variabel (bidang. Kolom).

  2. Apa pun yang disimpan sebagai data dalam file yang dapat dibaca oleh program pilihan.

Layout tabular adalah umum tetapi saya tidak berpikir itu bagian dari definisi apa pun; bagaimana data disimpan bisa secara praktis penting, secara alami.

PS Kata "format" sangat kelebihan sehingga bagi saya sebaiknya dihindari kecuali ditentukan secara jelas. Saya pernah melihatnya digunakan untuk

  1. Format file teks atau biner umum atau spesifik

  2. Struktur data, misalnya tabular atau lainnya

  3. Penyimpanan data atau tipe variabel, mis. Bit, integer, real, karakter

  4. Menampilkan format yang mengendalikan presentasi, misalnya detail jumlah tempat desimal; tampilan desimal, heksadesimal atau biner.

Nick Cox
sumber
6

Sudah ada beberapa jawaban yang baik di sini dan saya tidak berpikir saya bisa menembus lebih dalam daripada Nick Cox atau Franck Dernoncourt masalah apakah "dataset" mengacu pada pengumpulan konseptual dari data terkait, atau ke pengaturan tertentu dari data tersebut misalnya ke dalam tabel / matriks atau file yang dapat dibaca komputer. Ekstrak Franck menyebutkan kasus tepi seperti data yang dikumpulkan secara terus-menerus, atau data yang tersebar di beberapa tabel, yang perlu diingat jika Anda mengasumsikan akan ada definisi sederhana. (Tidak semua perangkat lunak statistik dapat mengatasinya, tetapi sangat mudah untuk membayangkan kasus di mana data disimpan dalam basis data relasional dengan beberapa tabel. Apakah seluruh basis data satu "dataset"?)

Satu hal yang saya akan tambahkan adalah bahwa set data tidak secara umum ditetapkan, dalam arti matematis! Sensu stricto baik satu set berisi objek atau tidak, tetapi tidak dapat berisi lebih dari satu salinan objek itu. Jika saya melempar dadu delapan kali dan skor 1, 4, 3, 5, 5, 4, 6, 4 maka himpunan skor digulung hanya {1, 3, 4, 5, 6}. Perhatikan bahwa unsur-unsurnya bisa dalam urutan apa pun, saya baru saja menuliskannya nilainya naik tetapi himpunan {5, 4, 1, 6, 3} secara matematis sama dengan itu, misalnya. Ini bukan apa yang biasanya kita maksudkan dengan dataset!

x¯=1nsaya=1nxsayax1x2

Tetapi vektor hanya untuk merekam satu variabel - untuk beberapa variabel, mungkin lebih nyaman menggunakan matriks untuk ditabulasi dengan urutan terpelihara. Untuk situasi yang lebih canggih seperti mengukur properti dari grid tiga dimensi voxel dari waktu ke waktu, Anda bahkan mungkin naik untuk mengatur data dalam tensor (lihat misalnya pertanyaan ini ).

Tetapi perhatikan bahwa secara konseptual sebuah multiset mungkin cukup dalam situasi yang paling sederhana, bahkan jika itu tidak praktis untuk tujuan praktis. Jika saya melempar koin bersamaan dengan menggulirkan dadu, dan ingin merekam dua hasil bersama, maka saya bisa menggunakan multiset seperti {(1, H), (3, T), (4, H), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} bukan matriks. Set biasa tidak akan cukup, karena tidak akan menghitung banyaknya (4, H), misalnya.

Gegat
sumber
1
Saya bisa membeli ide bahwa dataset adalah serangkaian pengamatan hanya dengan kerutan yang mungkin membutuhkan pengidentifikasi mereka untuk membuatnya berbeda. Tapi Anda benar bahwa maknanya di sini agak jauh dari itu dalam teori himpunan. Garis bawahi, seperti yang Anda tunjukkan di sini, bahwa urutan pengamatan seringkali penting dan akan sering, tetapi tidak selalu, diberikan oleh waktu atau variabel pemesanan lainnya.
Nick Cox
@NickCox (+1) Memang apa yang saya belum menemukan waktu, atau lebih tepatnya, untuk mengungkapkan adalah bahwa pengamatan sering datang dengan pengidentifikasi - kadang temporal, kadang-kadang berbasis lokasi, kadang-kadang keduanya. Ketika kita menyandikan data ke dalam vektor, matriks, atau tensor, yang sering secara langsung menyediakan struktur yang kita inginkan dan pengidentifikasi eksplisit (seperti indeks hard-coded) dapat dianggap tidak perlu, terutama jika hanya urutan atau posisi relatif yang penting. Tidak diragukan lagi ada terminologi yang benar untuk semua ini.
Silverfish
Saya tidak punya masalah dengan mengatakan bahwa pesanan tidak masalah. Itu tidak w / ia variabel tunggal. Memesan penting ketika Anda memiliki nilai-X dipasangkan dengan, katakanlah, waktu pengukuran. Tetapi kemudian, kita dapat benar-benar berpikir bahwa poinnya multidimensi, dan urutan sekumpulan data multidimensi tidak penting lagi. Saya juga tidak punya masalah dengan berpikir ada kenyataan, atau pengidentifikasi tersirat yang membuat dua 5 itu unik.
gung - Reinstate Monica
@ung saya berpikir tentang dataset di mana waktu atau urutan serial tersirat. Saya akan mengatakan itu adalah praktik yang buruk, dan sekarang tidak perlu, tidak memiliki variabel pemesanan eksplisit, tetapi kurangnya variabel pesanan seperti itu tidak mendiskualifikasi dari menjadi dataset. Bahkan pada tahun 1970-an saya akan secara rutin memproses seri spasial dengan pengidentifikasi implisit karena program Fortran saya sendiri membuat (bukan sepele) tenaga kerja memasukkan satu yang tidak perlu.
Nick Cox
Bagi saya sepertinya itu bagus, @NickCox. Saya akan mengatakan variabel order tersirat, dalam hal ini tetapi dalam arti masih ada.
gung - Reinstate Monica