Apakah semua 20 subjek sama tinggi jika standar deviasi sampel dilaporkan 0,0?

Menurut thread SE biologi ini , standar deviasi tinggi badan pria dewasa adalah sekitar $0.07$ meter, dan betina sekitar $0.06$ meter.

Membulatkan ini ke satu tempat desimal akan memberikan $0.1$ meter. Fakta bahwa standar deviasi dilaporkan sebagai $0.0$ meter menunjukkan standar deviasi di bawah ini $0.05$ meter ... tetapi standar deviasi, katakanlah, $0.048$ meter masih akan konsisten dengan angka yang dilaporkan karena akan membulatkan ke $0.0$ , namun akan menunjukkan variasi ketinggian dalam sampel hanya sedikit kurang dari variabilitas yang kami amati setiap hari dalam populasi umum.

Apakah angka tersebut dilaporkan dengan baik? Nah, itu akan jauh lebih berguna jika standar deviasi telah dilaporkan ke dua tempat desimal, seperti rata-rata. Ini juga bisa berupa kesalahan numerik atau pembulatan sederhana; sebagai contoh $0.07$ bisa terpotong ke $0.0$ bukannya bulat . Tetapi mungkinkah angka tersebut merujuk pada kesalahan standar? Saya sering melihat angka-angka ditulis dengan cara yang membuatnya ambigu apakah standar deviasi atau kesalahan standar dikutip - misalnya, "mean sampel adalah $1.62 (\pm 0.06)$ ".

Betapa masuk akal untuk penyimpangan standar yang benar untuk membulatkan $0.0$ ke satu tempat desimal? Kode R berikut mensimulasikan satu juta sampel ukuran dua puluh yang diambil dari populasi standar deviasi $0.06$ (seperti yang telah dilaporkan di tempat lain untuk tinggi betina), temukan standar deviasi untuk setiap sampel, plot histogram hasil, dan hitung proporsi sampel di mana standar deviasi yang diamati berada di bawah $0.05$ :

set.seed(123) #so uses same random numbers each time code is run
x <- replicate(1e6, sd(rnorm(20, sd=0.06)))
hist(x)
sum(x < 0.05)/1e6

[1] 0.170691

Oleh karena itu standar deviasi yang membulat ke $0.0$ tidak tidak masuk akal, terjadi sekitar tujuh belas persen dari waktu jika ketinggian biasanya didistribusikan dengan standar deviasi sejati $0.06$ .

Tunduk pada asumsi ini kita juga dapat menghitung, daripada mensimulasikan, probabilitas itu sekitar tujuh belas persen, sebagai berikut:

P (S^{2} < {0.05}^{2}) = P (\frac{19 S^{2}}{{0.06}^{2}} < \frac{19 \times {0.05}^{2}}{{0.06}^{2}}) = P (\frac{19 S^{2}}{{0.06}^{2}} < 13.194) = 0.1715

$P(S^2 < 0.05^2) = P\left(\frac{19 S^2}{0.06^2} < \frac{19 \times 0.05^2}{0.06^2}\right) = P\left(\frac{19 S^2}{0.06^2} < 13.194\right) = 0.1715$

di mana kita telah menggunakan fakta itu ${(n-1) S^2}/{\sigma^2} = {19 S^2}/{0.06^2}$ mengikuti distribusi chi-squared dengan $n-1 = 19$ derajat kebebasan. Anda dapat menghitung probabilitas dalam R menggunakan pchisq(q = 19*0.05^2/0.06^2, df = 19); jika Anda ganti $0.06$ oleh $0.07$ sejalan dengan angka yang diterbitkan untuk standar deviasi pria, probabilitas berkurang menjadi sekitar empat persen. Seperti @whuber tunjukkan dalam komentar di bawah ini, SD "putaran ke nol" kecil ini lebih mungkin terjadi jika kelompok sampel yang diambil lebih homogen daripada populasi umum. Jika standar deviasi populasi sekitar $0.06$ meter, maka kemungkinan mendapatkan standar deviasi sampel kecil juga akan menurun jika ukuran sampel lebih besar.

curve(pchisq(q = 19*0.05^2/x^2, df = 19), from=0.005, to=0.1,
      xlab="Population SD", ylab="Probability sample SD < 0.05 if n = 20")

curve(pchisq(q = (x-1)*0.05^2/0.06^2, df = x-1), from=2, to=50, ylim=c(0,0.6),
      xlab="Sample size", ylab="Probability sample SD < 0.05 if population SD = 0.06")

Gegat
sumber

+1. Juga masuk akal bahwa penelitian itu adalah, katakanlah, sekelompok orang dari populasi yang homogen, seperti tim olah raga, kelompok pemandu sorak, dll., Dalam hal ini SD dengan sangat baik bisa jadi 0,01 m atau kurang.

whuber

@whuber Poin bagus! Saya bertanya-tanya bagaimana masuk akal mungkin untuk SD untuk bahkan bulat ke 0,00 (yaitu menjadi kurang dari 0,005) dan terkejut betapa ketatnya kondisi untuk ini sebenarnya. Mungkin tidak seharusnya, karena itu benar-benar bermuara pada pembatalan rasio. Tetapi misalnya, jika pemandu sorak memiliki populasi SD = 0,01, maka pchisq(q = 19*0.005^2/0.01^2, df = 19)hanya memberi kemungkinan 0,04% sampel SD <0,005. Bahkan populasi SD = 0,008 memberikan probabilitas hanya sekitar 0,8%. Tetapi populasi SD sebesar 0,007, 0,006 dan 0,005 masing-masing memberikan probabilitas 4%, 17% (tidak ada kebetulan!) Dan 54%

Silverfish

Saya bisa membayangkan beberapa cara untuk mendapatkan variasi yang sangat sedikit. Bayangkan suatu kondisi yang memaksakan ketinggian minimum atau maksimum - misalnya di masa lalu, banyak tentara telah memberlakukan ketinggian maksimum untuk awak tank mereka, misalnya, atau beberapa tempat memiliki ketinggian minimum untuk polisi. Jika kita mengambil awak tertinggi di setiap peleton tangki (diberikan aturan ketinggian maksimum historis khas, yang biasanya jauh di bawah tinggi rata-rata) dan menemukan standar deviasi sampel ketinggian mereka, itu akan cenderung sangat kecil, karena ketinggian itu akan cenderung macet melawan batas.

Glen_b -Reinstate Monica

Mengingat bahwa tidak ada bahasa atau alat yang ditentukan dalam pertanyaan, 0,0 tidak selalu menunjukkan pembulatan atau pemotongan ke satu tempat desimal. 0,0 bisa saja bagaimana bahasa yang bersangkutan menampilkan 0 sebagai angka desimal / floating point (yang dilakukan beberapa bahasa).

NotThatGuy

Apakah semua 20 subjek sama tinggi jika standar deviasi sampel dilaporkan 0,0?

Jawaban: