Bagaimana Anda menentukan ukuran sampel saat melakukan polling pada populasi yang besar?

15

Australia saat ini sedang mengadakan pemilihan dan dapat dimengerti bahwa media melaporkan hasil jajak pendapat politik baru setiap hari. Di negara berpenduduk 22 juta, berapa persen dari populasi yang perlu disampel untuk mendapatkan hasil yang valid secara statistik?

Apakah mungkin bahwa menggunakan sampel yang terlalu besar dapat memengaruhi hasil, atau apakah validitas statistik meningkat secara monoton dengan ukuran sampel?

brotchie
sumber

Jawaban:

13

Ukuran sampel tidak banyak bergantung pada ukuran populasi, yang kontra-intuitif bagi banyak orang.

Sebagian besar perusahaan polling menggunakan 400 atau 1000 orang dalam sampel mereka.

Ada alasan untuk ini:

Ukuran sampel 400 akan memberi Anda interval kepercayaan +/- 5% 19 kali dari 20 (95%)

Ukuran sampel 1000 akan memberi Anda interval kepercayaan +/- 3% 19 kali dari 20 (95%)

Saat Anda mengukur proporsi dekat 50% lagian.

Kalkulator ini tidak buruk:

http://www.raosoft.com/samplesize.html

Neil McGuigan
sumber
6
Tetapi perhatikan bahwa ini semua didasarkan pada pengambilan sampel dari populasi yang homogen. Jika Anda memiliki populasi heterogen (mis. Proporsi yang berbeda untuk sub-kelompok yang berbeda, mengambil sampel bagian-bagian langka dari populasi), maka estimasi varians tersebut tidak dapat diandalkan. Perkiraan yang sebenarnya Anda hitung di sini adalah (saya pikir) untuk populasi yang diwakili sampel Anda. Pertanyaannya adalah: apakah populasi ini yang benar-benar Anda minati?
probabilityislogic
9

Misalkan Anda ingin tahu berapa persen orang yang akan memilih kandidat tertentu (katakanlah, , perhatikan bahwa menurut definisi π adalah antara 0 dan 100). Anda mencicipi N pemilih secara acak untuk mengetahui bagaimana mereka akan memilih dan survei Anda terhadap N pemilih ini memberi tahu Anda bahwa persentasenya adalah p . Jadi, Anda ingin menetapkan interval kepercayaan untuk persentase yang sebenarnya.ππNNp

Jika Anda menganggap bahwa biasanya didistribusikan (asumsi yang mungkin atau mungkin tidak dibenarkan tergantung pada seberapa 'besar' N adalah) maka selang kepercayaan Anda untuk π akan menjadi bentuk berikut: C I = [ p - k * s d ( p ) , p + k s d ( p ) ] di mana kpNπ

CI=[pksd(p),  p+ksd(p)]
k adalah konstanta yang tergantung pada tingkat kepercayaan yang Anda inginkan (yaitu, 95% atau 99% dll).

Dari perspektif polling, Anda ingin lebar interval kepercayaan Anda 'rendah'. Biasanya, lembaga survei bekerja dengan margin of error yang pada dasarnya adalah setengah dari CI. Dengan kata lain, . MoE=ksd(p)

Berikut adalah bagaimana kita pergi tentang menghitung : Menurut definisi, p = Σ X i / N di mana, X i = 1 jika pemilih i suara untuk calon dan 0 sebaliknya.sd(p)p=Xi/NXi=1i0

Xi

Var(P)=V(XiN)=V(Xi)N2=Nπ(1π)N2=π(1π)N.
sd(p)=π(1π)N
πsd(p)π=0.5
sd(p)=0.50.5/N=0.5/N
So, you see that the margin of error falls off exponentially with N and thus you really do not need very big samples to reduce your margin of error, or in other words N need not be very large for you to obtain a narrow confidence interval.

For example, for a 95 % confidence interval (i.e., k=1.96) and N=1000, the confidence interval is:

[p1.960.51000,  p+1.960.51000]=[p0.03,  p+0.03]
As we increase N the costs of polling go up linearly but the gains go down exponentially. That is the reason why pollsters usually cap N at 1000 as that gives them a reasonable error of margin under the worst possible assumption of π=50%.
Community
sumber
2

As a rough generalization, any time you sample a fraction of the people in a population, you're going to get a different answer than if you sample the same number again (but possibly different people).

So if you want to find out how many people in Australia are >= 30 years old, and if the true fraction (God told us) just happened to be precisely 0.4, and if we ask 100 people, the average number we can expect to say they are >= 30 is 100 x 0.4 = 40, and the standard deviation of that number is +/- sqrt(100 * 0.4 * 0.6) = sqrt(24) ~ 4.9 or 4.9% (Binomial distribution).

Since that square root is in there, when the sample size goes up by 100 times, the standard deviation goes down by 10 times. So in general, to reduce the uncertainty of a measurement like this by a factor of 10, you need to sample 100 times as many people. So if you ask 100 x 100 = 10000 people, the standard deviation would go up to 49 or, as a percent, down to 0.49%.

Mike Dunlavey
sumber