Australia saat ini sedang mengadakan pemilihan dan dapat dimengerti bahwa media melaporkan hasil jajak pendapat politik baru setiap hari. Di negara berpenduduk 22 juta, berapa persen dari populasi yang perlu disampel untuk mendapatkan hasil yang valid secara statistik?
Apakah mungkin bahwa menggunakan sampel yang terlalu besar dapat memengaruhi hasil, atau apakah validitas statistik meningkat secara monoton dengan ukuran sampel?
sumber
Misalkan Anda ingin tahu berapa persen orang yang akan memilih kandidat tertentu (katakanlah, , perhatikan bahwa menurut definisi π adalah antara 0 dan 100). Anda mencicipi N pemilih secara acak untuk mengetahui bagaimana mereka akan memilih dan survei Anda terhadap N pemilih ini memberi tahu Anda bahwa persentasenya adalah p . Jadi, Anda ingin menetapkan interval kepercayaan untuk persentase yang sebenarnya.π π N N p
Jika Anda menganggap bahwa biasanya didistribusikan (asumsi yang mungkin atau mungkin tidak dibenarkan tergantung pada seberapa 'besar' N adalah) maka selang kepercayaan Anda untuk π akan menjadi bentuk berikut: C I = [ p - k * s d ( p ) , p + k ∗ s d ( p ) ] di mana kp N π
Dari perspektif polling, Anda ingin lebar interval kepercayaan Anda 'rendah'. Biasanya, lembaga survei bekerja dengan margin of error yang pada dasarnya adalah setengah dari CI. Dengan kata lain, .MoE=k∗sd(p)
Berikut adalah bagaimana kita pergi tentang menghitung : Menurut definisi, p = Σ X i / N di mana, X i = 1 jika pemilih i suara untuk calon dan 0 sebaliknya.sd(p) p=∑Xi/N Xi=1 i 0
For example, for a 95 % confidence interval (i.e.,k=1.96 ) and N=1000 , the confidence interval is:
sumber
As a rough generalization, any time you sample a fraction of the people in a population, you're going to get a different answer than if you sample the same number again (but possibly different people).
So if you want to find out how many people in Australia are >= 30 years old, and if the true fraction (God told us) just happened to be precisely 0.4, and if we ask 100 people, the average number we can expect to say they are >= 30 is 100 x 0.4 = 40, and the standard deviation of that number is +/- sqrt(100 * 0.4 * 0.6) = sqrt(24) ~ 4.9 or 4.9% (Binomial distribution).
Since that square root is in there, when the sample size goes up by 100 times, the standard deviation goes down by 10 times. So in general, to reduce the uncertainty of a measurement like this by a factor of 10, you need to sample 100 times as many people. So if you ask 100 x 100 = 10000 people, the standard deviation would go up to 49 or, as a percent, down to 0.49%.
sumber