Apa perbedaan antara populasi dan sampel?

38

Apa perbedaan antara populasi dan sampel? Apa variabel dan statistik umum yang digunakan untuk masing-masing, dan bagaimana kaitannya satu sama lain?

Baltimark
sumber

Jawaban:

36

Populasi adalah himpunan entitas yang diteliti. Misalnya, tinggi rata-rata pria. Ini adalah populasi hipotetis karena ini mencakup semua pria yang pernah hidup, hidup dan akan hidup di masa depan. Saya suka contoh ini karena ini mengarahkan kita pada titik bahwa kita, sebagai analis, memilih populasi yang ingin kita pelajari. Biasanya tidak mungkin untuk mensurvei / mengukur seluruh populasi karena tidak semua anggota dapat diamati (mis. Pria yang akan ada di masa depan). Jika mungkin untuk menghitung seluruh populasi, seringkali mahal untuk melakukannya dan akan memakan banyak waktu. Dalam contoh di atas kita memiliki populasi "laki-laki" dan parameter yang menarik, tinggi badan mereka.

Sebagai gantinya, kita bisa mengambil subset dari populasi ini yang disebut sampel dan menggunakan sampel ini untuk menarik kesimpulan tentang populasi yang diteliti, mengingat beberapa kondisi. Dengan demikian kita dapat mengukur tinggi rata-rata pria dalam sampel populasi yang kita sebut statistik dan menggunakannya untuk menarik kesimpulan tentang parameter minat dalam populasi. Ini adalah kesimpulan karena akan ada beberapa ketidakpastian dan ketidaktepatan yang terlibat dalam menarik kesimpulan tentang populasi berdasarkan sampel. Ini harus jelas - kami memiliki lebih sedikit anggota dalam sampel kami daripada populasi kami sehingga kami telah kehilangan beberapa informasi.

Ada banyak cara untuk memilih sampel dan studi ini disebut teori sampling. Metode yang umum digunakan disebut Simple Random Sampling (SRS). Dalam SRS setiap anggota populasi memiliki probabilitas yang sama untuk dimasukkan dalam sampel, maka istilah "acak". Ada banyak metode pengambilan sampel lain misalnya pengambilan sampel bertingkat, pengambilan sampel kluster, dll yang semuanya memiliki kelebihan dan kekurangan.

Penting untuk diingat bahwa sampel yang kami ambil dari populasi hanya satu dari sejumlah besar sampel potensial. Jika sepuluh peneliti semuanya mempelajari populasi yang sama, mengambil sampel mereka sendiri maka mereka mungkin mendapatkan jawaban yang berbeda. Kembali ke contoh kami sebelumnya, masing-masing dari sepuluh peneliti dapat datang dengan ketinggian rata-rata yang berbeda dari laki-laki yaitu statistik yang dipertanyakan (rata-rata tinggi) bervariasi dari sampel ke sampel - memiliki distribusi yang disebut distribusi sampling. Kita dapat menggunakan distribusi ini untuk memahami ketidakpastian dalam estimasi parameter populasi kami.

Distribusi sampling dari mean sampel diketahui sebagai distribusi normal dengan standar deviasi yang sama dengan standar deviasi sampel dibagi dengan ukuran sampel. Karena ini dapat dengan mudah dikacaukan dengan standar deviasi sampel, maka lebih umum untuk menyebut standar deviasi dari distribusi sampling sebagai kesalahan standar .

Graham Cookson
sumber
7
Bukankah ini sedikit gunanya menggunakan "semua manusia pernah" sebagai populasi? Maksudku, bahkan tidak ada konsensus tentang berapa umur homo sapiens , atau apakah homo neanderthalensis adalah spesies yang terpisah, apalagi apakah laki-laki dari alat batu yang menggunakan homo habilis dianggap sebagai "laki-laki". Agaknya masalah yang sama akan dihadapi kita di masa depan juga.
naught101
Dalam paragraf terakhir, saya pikir ada sedikit masalah, dan seharusnya berbunyi ... "sama dengan standar deviasi sampel dibagi dengan [akar kuadrat] dari ukuran sampel" mengacu pada kesalahan standar .
Antoni Parellada
13

Populasi adalah seluruh rangkaian nilai, atau individu, yang Anda minati. Sampel adalah himpunan bagian dari populasi, dan merupakan himpunan nilai yang benar-benar Anda gunakan dalam estimasi Anda.

Jadi, misalnya, jika Anda ingin mengetahui ketinggian rata-rata penduduk Cina, itu adalah populasi Anda, yaitu populasi Cina. Masalahnya, ini adalah angka yang cukup besar, dan Anda tidak akan bisa mendapatkan data untuk semua orang di sana. Jadi Anda menggambar sampel, yaitu, Anda mendapatkan beberapa pengamatan, atau ketinggian beberapa orang di China (sebagian dari populasi, sampel) dan melakukan kesimpulan berdasarkan itu.

Vivi
sumber
Jawaban yang bagus. Saya pikir Anda harus melangkah lebih jauh ke apa yang Anda maksud dengan "lakukan kesimpulan Anda berdasarkan itu". Itu jenis pertanyaan saya yang kedua.
Baltimark
mmm ... Saya tidak begitu mengerti apa yang Anda maksud dengan variabel dan statistik umum apa ... Oh, maksud Anda seperti Anda menggunakan distribusi z jika Anda memiliki varians populasi dan distribusi-t jika Anda hanya memiliki varians sampel dan ukuran sampel kecil? Sesuatu seperti itu?
Vivi
Yang saya maksudkan adalah mean dan standar deviasi adalah parameter yang terkait dengan populasi, tetapi mereka diperkirakan dengan rata-rata sampel ((1 / N) * \ jumlah (x_i)) dan standar deviasi sampel ((1 / ( N-1)) * \ jumlah (x_i - x ^ bar) ^ 2).
Baltimark
8

Populasi adalah segalanya dalam kelompok studi. Misalnya, jika Anda mempelajari harga saham Apple, itu adalah harga saham historis, saat ini, dan bahkan semua masa depan. Atau, jika Anda menjalankan pabrik telur, itu semua telur yang dibuat oleh pabrik.

Anda tidak selalu harus sampel, dan lakukan tes statistik. Jika populasi Anda adalah keluarga dekat Anda, Anda tidak perlu mengambil sampel, karena populasinya kecil.

Sampling populer karena berbagai alasan:

  • lebih murah daripada sensus (mengambil sampel seluruh populasi)
  • Anda tidak memiliki akses ke data masa depan, jadi harus mencicipi masa lalu
  • Anda harus menghancurkan beberapa item dengan mengujinya, dan tidak ingin menghancurkan semuanya (misalnya, telur)
Neil McGuigan
sumber
2

Ketika kita memikirkan istilah “populasi,” kita biasanya memikirkan orang-orang di kota, wilayah, negara bagian atau negara kita dan karakteristik masing-masing seperti jenis kelamin, usia, status perkawinan, keanggotaan etnis, agama dan sebagainya. Dalam statistik, istilah "populasi" memiliki arti yang sedikit berbeda. "Populasi" dalam statistik mencakup semua anggota kelompok tertentu yang sedang kami pelajari atau kumpulkan informasi untuk keputusan yang didorong oleh data.

Sebagian dari populasi disebut sampel. Ini adalah proporsi dari populasi, sebagian, sebagian dan semua karakteristiknya. Sampel adalah kelompok yang ditarik secara ilmiah yang sebenarnya memiliki karakteristik yang sama dengan populasi - jika diambil secara acak (ini mungkin sulit bagi Anda untuk percaya, tetapi itu benar!)

Sampel yang diambil secara acak harus memiliki dua karakteristik:

* Setiap orang memiliki kesempatan yang sama untuk dipilih untuk sampel Anda; dan,

* Pemilihan satu orang tidak tergantung pada pemilihan orang lain.

Yang hebat dari sampel acak adalah Anda dapat menggeneralisasi populasi yang Anda minati. Jadi, jika Anda mencicipi 500 rumah tangga di komunitas Anda, Anda dapat menggeneralisasi ke 50.000 rumah tangga yang tinggal di sana. Jika Anda mencocokkan beberapa karakteristik demografis 500 dengan 50.000, Anda akan melihat bahwa keduanya sangat mirip.

roseleneramas
sumber
2
Ini pada dasarnya benar, jika ditafsirkan dengan benar. Saya khawatir bahwa beberapa pembaca mungkin akan keliru berpikir bahwa sampel acak sederhana dengan penggantian (yang merupakan jenis sampel acak yang Anda gambarkan; ada jenis lain) dengan benar mereproduksi semua karakteristik populasi. Bahkan, mereka jarang melakukannya. Maksud dari pengambilan sampel secara acak adalah bahwa perbedaan (yang tidak dapat dihindari) antara karakteristik sampel dan karakteristik populasi dapat dikaitkan dengan proses pemilihan acak.
whuber
0

Suatu populasi mencakup semua elemen dari sekumpulan data. Sampel terdiri dari satu atau lebih pengamatan dari populasi. BOA, A. (2012, 17)

pengguna91513
sumber
2
Ketika semua elemen dari "set data" dianggap sebagai populasi, dataset itu disebut sensus populasi. Dataset yang sangat sedikit adalah sensus.
whuber