Apa akurasi data yang diperoleh melalui sampel acak?

Saya seorang pemula di statistik, jadi jika saya membuat asumsi yang salah di sini tolong katakan padaku.

Ada populasi Norang. (Misalnya Nbisa 1.000.000.) Beberapa orang berambut merah. Saya mengambil sampel norang (katakanlah 10,) dan menemukan bahwa jmereka adalah gadis berambut merah.

Apa yang bisa saya katakan tentang proporsi umum berambut merah dalam populasi? Maksud saya, perkiraan terbaik saya mungkin j/n, tetapi apa yang akan menjadi standar deviasi dari perkiraan itu?

Ngomong-ngomong, apa istilah yang diterima untuk ini?

standard-deviation sample-size binomial standard-error Ram Rachum
sumber

Mengapa kita selalu memilih jahe? :)

Brandon Bertelsen

Jawaban:

Anda dapat menganggap ini sebagai uji coba binomial - uji coba Anda menggunakan "redhead" atau "tidak readhead". Dalam hal ini, Anda dapat membangun interval kepercayaan untuk proporsi sampel Anda ( ) seperti yang didokumentasikan di Wikipedia: $j/n$

Interval kepercayaan proporsi binomial

Interval kepercayaan 95% pada dasarnya mengatakan bahwa, menggunakan algoritma pengambilan sampel yang sama, jika Anda mengulangi ini 100 kali, proporsi sebenarnya akan berada pada interval yang dinyatakan 95 kali.

Pembaruan By the way, saya pikir istilah yang Anda cari mungkin kesalahan standar yang merupakan standar deviasi dari proporsi sampel. Dalam kasus ini, ini mana adalah proporsi estimasi Anda. Perhatikan bahwa saat bertambah, kesalahan standar berkurang. $\sqrt{{p (1-p)} \over {n}}$ $p$ $n$

ars
sumber

@ars: Semuanya benar dan dinyatakan dengan baik. Tapi satu hal yang tampaknya hilang: standar deviasi dari "aproksimasi terbaik" j / n tergantung pada proporsi sebenarnya dari berambut merah, bukan yang diperkirakan. Masalahnya, tentu saja, kita tidak tahu proporsi sebenarnya. Tetapi faktanya tetap bahwa kesalahan standar tidak benar-benar sama dengan standar deviasi dari perkiraan kecuali ketika perkiraan itu benar-benar tepat. Saya tahu Anda tidak perlu mengingatkan tentang kehalusan ini, tidak juga sebagian besar pembaca, tetapi ini agak relevan dengan pertanyaan awal.

whuber

@whuber: Klarifikasi ini membuat saya agak bingung. Diberikan dan , apa yang akan menjadi kesalahan standar, dijelaskan oleh dan ? (Berbeda dengan ketergantungan pada proporsi sebenarnya dari rambut merah, yang tidak bisa kita ketahui.)

j

$j$

n

$n$

j

$j$

n

$n$

Ram Rachum

@ cool-RR: ars benar tentang kesalahan standar. Intinya adalah bahwa kesalahan standar itu sendiri adalah perkiraan seberapa akurat statistik j / n memperkirakan proporsi sebenarnya. Misalnya, anggaplah 10% dari semua orang adalah gadis berambut merah. Maka dalam banyak kasus dapat terjadi bahwa j = 0 ketika n = 10. Anda akan mendapatkan SE dari Sqrt (0 (1-0) / 10) = 0. Ini jelas meremehkan ketepatan statistik Anda yang sebenarnya p = j / n = 0/10. Presisi sebenarnya adalah Sqrt (0,10 (1-0,90) / n), meskipun Anda tidak tahu itu!

Whuber

Lagi: Saya tertarik pada apa yang bisa saya ketahui, bukan pada apa yang tidak bisa saya ketahui. Mari kita ambil contoh Anda di mana dan . Proporsi berambut merah yang paling mungkin adalah 0%, tetapi ada kemungkinan besar itu adalah 2% atau 5% atau 10%. Jadi pertanyaan saya adalah: Mengingat bahwa dan , apa fungsi distribusi probabilitas dari proporsi berambut merah, dari informasi yang saya tahu, bukan informasi yang saya tidak tahu?

j = 0

$j=0$

n = 10

$n=10$

j = 0

$j=0$

n = 10

$n=10$

Ram Rachum

@ cool-RR: untuk sampel kecil, gunakan interval Agresti-Coull yang ditentukan dalam tautan Wikipedia pada interval kepercayaan. Berdasarkan pengamatan Anda, Anda akan memperoleh interval 95% untuk perkiraan. Lalu, apa yang akan Anda ketahui, berdasarkan apa yang Anda amati, melekat dalam definisi CI 95%.

ars 8-10

jika ukuran sampel Anda tidak begitu kecil dari ukuran populasi seperti dalam contoh Anda, dan jika Anda mengambil sampel tanpa penggantian [Sw / oR], ekspresi yang lebih baik untuk [diperkirakan] SE adalah $n$ $N$

\hat{S E} = \sqrt{\frac{N - n}{N} \frac{\hat{p} \hat{q}}{n}},

$\hat{SE} = \sqrt{\frac{N - n}{N}\frac{\hat p \hat q}{n}},$

di mana adalah estimasi proporsi dan . $\hat p$ $j/n$ $\hat q = 1- \hat p$

[istilah disebut FPC [koreksi populasi terbatas]. $\frac{N-n}{N}$

meskipun komentar whuber secara teknis benar, tampaknya menyarankan bahwa tidak ada yang bisa dilakukan untuk mendapatkan, katakanlah, interval kepercayaan untuk proporsi yang benar . jika cukup besar untuk membuat perkiraan normal masuk akal [ , katakanlah], kecil kemungkinannya seseorang akan mendapatkan . juga, jika ukuran sampel cukup besar untuk perkiraan normal menggunakan benar untuk masuk akal, menggunakan sebagai gantinya juga memberikan perkiraan yang masuk akal. $p$ $n$ $np > 10$ $j=0$ $SE$ $\hat{SE}$

[jika Anda benar-benar kecil dan Anda menggunakan Sw / oR, Anda mungkin harus menggunakan distribusi hypergeometrik yang tepat untuk alih-alih perkiraan normal. jika Anda melakukan SWR, ukuran tidak relevan dan Anda dapat menggunakan metode binomial yang tepat untuk mendapatkan CI untuk .] $n$ $j$ $N$ $p$

dalam hal apa pun, karena , kita selalu bisa bersikap konservatif dan menggunakan sebagai pengganti di atas. jika Anda melakukannya, dibutuhkan sampel untuk mendapatkan perkiraan ME [margin of error = 2 ] dari .03 [terlepas dari seberapa besar adalah!]. $p(1-p) \le 1/4$ $\frac{1}{2\sqrt{n}}$ $\sqrt{\frac{\hat p \hat q}{n}}$ $n = 1,111$ $\hat {SE}$ $\pm$ $N$

Ronaf
sumber