Deviasi standar dapat diterapkan di sini seperti di tempat lain: deviasi ini memberikan informasi berguna tentang penyebaran data. Secara khusus, sd dibagi dengan akar kuadrat dari ukuran sampel adalah satu kesalahan standar: ia memperkirakan dispersi distribusi sampling dari rata-rata. Mari kita hitung:
3.2%/10000−−−−−√=0.032%=0.00032.
Itu kecil - jauh lebih kecil dari presisi Anda cari.±0.50%
Meskipun data tidak terdistribusi secara normal, mean sampel sangat dekat dengan terdistribusi secara normal karena ukuran sampel sangat besar. Di sini, misalnya, adalah histogram sampel dengan karakteristik yang sama seperti milik Anda dan, di sebelah kanannya, histogram rata-rata seribu sampel tambahan dari populasi yang sama.
Itu terlihat sangat dekat dengan Normal, bukan?
Jadi, meskipun tampaknya Anda bootstrap dengan benar, bootstrap tidak diperlukan: interval kepercayaan simetris untuk mean diperoleh, seperti biasa, dengan mengalikan kesalahan standar dengan persentil yang sesuai dari distribusi Normal standar (untuk kecerdasan, ) dan memindahkan jarak itu ke kedua sisi rata-rata. Dalam kasus Anda, , jadi interval kepercayaan adalah100−α%Z1−α/200Z1−α/200=2.575899%
(0.977−2.5758(0.032)/10000−−−−−√, 0.977+2.5758(0.032)/10000−−−−−√)=(97.62%,97.78%).
Ukuran sampel yang cukup dapat ditemukan dengan membalik hubungan ini untuk menyelesaikan ukuran sampel. Di sini ia memberi tahu kami bahwa Anda membutuhkan ukuran sampel
(3.2%/(0.5%/Z1−α/200))2≈272.
Ini cukup kecil sehingga kita mungkin ingin memeriksa kembali kesimpulan bahwa distribusi sampling rata-rata adalah Normal. Saya menarik sampel dari populasi saya dan bootstrap rata-rata (untuk iterasi):99992729999
Benar saja, kelihatannya Normal. Bahkan, interval kepercayaan bootstrap dari hampir identik dengan CI Normal-teori .( 97,19 % , 98,24 % )(97.16%,98.21%)(97.19%,98.24%)
Sebagai contoh ini menunjukkan, para ukuran sampel mutlak menentukan akurasi perkiraan daripada proporsi ukuran populasi. (Contoh ekstrem tapi intuitif adalah setetes air laut dapat memberikan perkiraan akurat konsentrasi garam di lautan, meskipun setetes itu adalah sebagian kecil dari semua air laut.) Untuk tujuan Anda yang disebutkan, dapatkan sampel dari (yang membutuhkan lebih dari kali lebih banyak bekerja sebagai sampel dari ) adalah berlebihan.36 2721000036272
R
kode untuk melakukan analisis ini dan plot grafik berikut ini. Sampel dari populasi yang memiliki distribusi Beta dengan rata-rata dan SD .0,0320.9770.032
set.seed(17)
#
# Study a sample of 10,000.
#
Sample <- rbeta(10^4, 20.4626, 0.4817)
hist(Sample)
hist(replicate(10^3, mean(rbeta(10^4, 20.4626, 0.4817))),xlab="%",main="1000 Sample Means")
#
# Analyze a sample designed to achieve a CI of width 1%.
#
(n.sample <- ceiling((0.032 / (0.005 / qnorm(1-0.005)))^2))
Sample <- rbeta(n.sample, 20.4626, 0.4817)
cat(round(mean(Sample), 3), round(sd(Sample), 3)) # Sample statistics
se.mean <- sd(Sample) / sqrt(length(Sample)) # Standard error of the mean
cat("CL: ", round(mean(Sample) + qnorm(0.005)*c(1,-1)*se.mean, 5)) # Normal CI
#
# Compare the bootstrapped CI of this sample.
#
Bootstrapped.means <- replicate(9999, mean(sample(Sample, length(Sample), replace=TRUE)))
hist(Bootstrapped.means)
cat("Bootstrap CL:", round(quantile(Bootstrapped.means, c(0.005, 1-0.005)), 5))