Apakah itu hanya agregasi poin data? Atau itu representasi titik data untuk elemen yang berbeda dalam format tabel yang disusun dengan nilai-nilai variabel yang berbeda? Apa bedanya dengan data mentah?
dataset
terminology
definition
ankit
sumber
sumber
Jawaban:
Dalam pengalaman saya, "dataset" (atau "kumpulan data") adalah istilah informal yang merujuk pada kumpulan data. Secara umum dataset berisi lebih dari satu variabel dan menyangkut satu topik; itu mungkin menyangkut satu sampel.
Kesalahan yang sering saya lihat pada penulis pertanyaan Cross Validated adalah menggunakan "dataset" sebagai sinonim untuk "variabel" atau "vektor".
sumber
Saya pikir Wikipedia melakukan pekerjaan yang layak dalam mendefinisikannya:
Seperti yang Anda lihat, istilahnya agak kabur.
sumber
Saya pikir Anda mungkin perlu mendefinisikan titik data sebelum Anda dapat menetapkan kumpulan data : mengapa satu primitif dan tidak memerlukan definisi, tetapi tidak sebaliknya?
Setidaknya dua definisi masuk akal bagi saya:
Satu atau lebih pengamatan (kasus, catatan, baris) untuk satu atau lebih variabel (bidang. Kolom).
Apa pun yang disimpan sebagai data dalam file yang dapat dibaca oleh program pilihan.
Layout tabular adalah umum tetapi saya tidak berpikir itu bagian dari definisi apa pun; bagaimana data disimpan bisa secara praktis penting, secara alami.
PS Kata "format" sangat kelebihan sehingga bagi saya sebaiknya dihindari kecuali ditentukan secara jelas. Saya pernah melihatnya digunakan untuk
Format file teks atau biner umum atau spesifik
Struktur data, misalnya tabular atau lainnya
Penyimpanan data atau tipe variabel, mis. Bit, integer, real, karakter
Menampilkan format yang mengendalikan presentasi, misalnya detail jumlah tempat desimal; tampilan desimal, heksadesimal atau biner.
sumber
Sudah ada beberapa jawaban yang baik di sini dan saya tidak berpikir saya bisa menembus lebih dalam daripada Nick Cox atau Franck Dernoncourt masalah apakah "dataset" mengacu pada pengumpulan konseptual dari data terkait, atau ke pengaturan tertentu dari data tersebut misalnya ke dalam tabel / matriks atau file yang dapat dibaca komputer. Ekstrak Franck menyebutkan kasus tepi seperti data yang dikumpulkan secara terus-menerus, atau data yang tersebar di beberapa tabel, yang perlu diingat jika Anda mengasumsikan akan ada definisi sederhana. (Tidak semua perangkat lunak statistik dapat mengatasinya, tetapi sangat mudah untuk membayangkan kasus di mana data disimpan dalam basis data relasional dengan beberapa tabel. Apakah seluruh basis data satu "dataset"?)
Satu hal yang saya akan tambahkan adalah bahwa set data tidak secara umum ditetapkan, dalam arti matematis! Sensu stricto baik satu set berisi objek atau tidak, tetapi tidak dapat berisi lebih dari satu salinan objek itu. Jika saya melempar dadu delapan kali dan skor 1, 4, 3, 5, 5, 4, 6, 4 maka himpunan skor digulung hanya {1, 3, 4, 5, 6}. Perhatikan bahwa unsur-unsurnya bisa dalam urutan apa pun, saya baru saja menuliskannya nilainya naik tetapi himpunan {5, 4, 1, 6, 3} secara matematis sama dengan itu, misalnya. Ini bukan apa yang biasanya kita maksudkan dengan dataset!
Tetapi vektor hanya untuk merekam satu variabel - untuk beberapa variabel, mungkin lebih nyaman menggunakan matriks untuk ditabulasi dengan urutan terpelihara. Untuk situasi yang lebih canggih seperti mengukur properti dari grid tiga dimensi voxel dari waktu ke waktu, Anda bahkan mungkin naik untuk mengatur data dalam tensor (lihat misalnya pertanyaan ini ).
Tetapi perhatikan bahwa secara konseptual sebuah multiset mungkin cukup dalam situasi yang paling sederhana, bahkan jika itu tidak praktis untuk tujuan praktis. Jika saya melempar koin bersamaan dengan menggulirkan dadu, dan ingin merekam dua hasil bersama, maka saya bisa menggunakan multiset seperti {(1, H), (3, T), (4, H), (4, H), (4, H ), (4, T), (5, H), (5, T), (6, T)} bukan matriks. Set biasa tidak akan cukup, karena tidak akan menghitung banyaknya (4, H), misalnya.
sumber