Apa teknik statistik untuk membuat set sampel, yang mewakili seluruh populasi (dengan tingkat kepercayaan yang diketahui)?
Juga,
- Bagaimana cara memvalidasi, jika sampel cocok dengan keseluruhan dataset?
- Apakah mungkin, tanpa mem-parsing seluruh dataset (yang bisa menjadi milyaran catatan)?
sumber
Pada pertanyaan kedua Anda yang pertama, Anda mungkin bertanya, "bagaimana data dimasukkan?" Jika Anda berpikir bahwa data dimasukkan dengan cara yang relatif sewenang-wenang (yaitu, terlepas dari karakteristik pengamatan Anda yang dapat diobservasi atau tidak dapat diamati yang mungkin memengaruhi analisis akhir Anda menggunakan data), maka Anda dapat mempertimbangkan 5 juta pertama, katakanlah, atau bagaimanapun. banyak yang membuat Anda nyaman bekerja, sebagai perwakilan dari sampel lengkap dan pilih secara acak dari grup ini untuk membuat sampel yang dapat Anda kerjakan.
Untuk membandingkan dua distribusi empiris, Anda dapat menggunakan qq-plot dan dua sampel Kolmogorov – Smirnov tes non-parametrik untuk perbedaan distribusi (lihat, misalnya, di sini: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). Dalam hal ini, Anda akan menguji distribusi masing-masing variabel dalam sampel Anda terhadap distribusi variabel itu dalam set data "lengkap" Anda (sekali lagi, bisa jadi hanya 5 juta pengamatan dari sampel lengkap Anda). Tes KS dapat menderita dari daya rendah (yaitu, sulit untuk menolak hipotesis nol tidak ada perbedaan antara kelompok-kelompok), tetapi, dengan banyak pengamatan, Anda harus baik-baik saja.
sumber