Apa sebenarnya artinya 'kumpulan data'?

16

Saya berpikir bahwa 'kumpulan data' hanya berarti menggabungkan data yang sebelumnya dibagi menjadi beberapa kategori ... pada dasarnya, mengabaikan kategori-kategori dan membuat data menetapkan satu 'kumpulan' raksasa data. Saya kira ini adalah pertanyaan lebih banyak tentang terminologi daripada aplikasi statistik.

Sebagai contoh: Saya ingin membandingkan 2 situs, dan di dalam setiap situs saya memiliki tipe dua tahun (baik dan buruk). Jika saya ingin membandingkan 2 situs 'keseluruhan' (yaitu, mengabaikan jenis tahun), apakah benar untuk mengatakan bahwa saya mengumpulkan data dalam setiap situs? Lebih jauh dari itu, karena beberapa tahun data terdiri dari jenis tahun yang baik dan buruk, apakah benar juga untuk mengatakan bahwa saya mengumpulkan data di antara tahun-tahun untuk mencapai set data 'tahun baik' dan 'tahun buruk' di setiap situs? Terima kasih atas bantuan Anda! Mog

Mog
sumber

Jawaban:

13

Ya, contoh Anda benar.

Kamus Bahasa Inggris Oxford mendefinisikan kumpulan sebagai:

kolam renang, v.

(puːl)

1.1 trans. Untuk membuang ke dalam saham biasa atau dana untuk dibagikan sesuai dengan perjanjian; untuk menggabungkan (modal atau kepentingan) untuk kepentingan bersama; spek. perusahaan kereta api yang bersaing, dll .: Untuk berbagi atau membagi (lalu lintas atau tanda terima).

Contoh lain adalah:

Anda mengukur kadar zat X pada darah pria dan wanita. Anda tidak melihat perbedaan statistik antara kedua kelompok sehingga Anda menyatukan data , mengabaikan jenis kelamin subjek eksperimental.

Apakah benar secara statistik untuk melakukannya sangat tergantung pada kasus spesifik.

nico
sumber
12

Pooling bisa merujuk pada penggabungan data, tetapi bisa juga merujuk pada penggabungan informasi dan bukan data mentah. Salah satu kegunaan yang paling umum dari penggabungan adalah dalam memperkirakan suatu varian. Jika kami percaya bahwa 2 populasi memiliki varians yang sama, tetapi tidak berarti rata-rata yang sama, maka kami dapat menghitung 2 estimasi varians dari sampel 2 kelompok, kemudian menggabungkannya (mengambil rata-rata tertimbang) untuk mendapatkan estimasi tunggal varian umum. Kami tidak menghitung estimasi varians tunggal dari data gabungan karena jika rata-rata tidak sama maka akan mengembang estimasi varians.

Greg Snow
sumber
Terima kasih @Greg. Untuk memperjelas (karena saya mencoba untuk menggabungkan varians juga dari literatur), apa yang Anda katakan adalah untuk mendapatkan varians 'rata-rata' untuk beberapa populasi, saya dapat mengambil rata-rata tertimbang dari varians yang dihitung? Bagaimana saya menimbang varian-varian itu? Bukankah setiap populasi = 1?
Mog
Jika ukuran sampel sama, maka rata-rata sederhana cenderung bekerja. Secara umum kami memberikan setiap titik data bobot yang sama, rumus standar adalah untuk mengalikan setiap varians dengan derajat kebebasan (atau angka dalam penyebut untuk daripada kelompok, n-1), lalu menjumlahkan semua bagian, kemudian membaginya dengan jumlah derajat kebebasan (semua n_i-1).
Greg Snow