Apakah semua 20 subjek sama tinggi jika standar deviasi sampel dilaporkan 0,0?

8

Penelitian yang saya ulas ini melaporkan tinggi rata-rata untuk 20 subjek sebagai 1,70 meter dengan standar deviasi 0,0. Apakah ini berarti semua 20 tepat 1,70 meter? Atau apakah ini kesalahan pelaporan?

Lee
sumber

Jawaban:

16

Menurut thread SE biologi ini , standar deviasi tinggi badan pria dewasa adalah sekitar0.07 meter, dan betina sekitar 0.06 meter.

Membulatkan ini ke satu tempat desimal akan memberikan 0.1meter. Fakta bahwa standar deviasi dilaporkan sebagai0.0 meter menunjukkan standar deviasi di bawah ini 0.05 meter ... tetapi standar deviasi, katakanlah, 0.048 meter masih akan konsisten dengan angka yang dilaporkan karena akan membulatkan ke 0.0, namun akan menunjukkan variasi ketinggian dalam sampel hanya sedikit kurang dari variabilitas yang kami amati setiap hari dalam populasi umum.

Apakah angka tersebut dilaporkan dengan baik? Nah, itu akan jauh lebih berguna jika standar deviasi telah dilaporkan ke dua tempat desimal, seperti rata-rata. Ini juga bisa berupa kesalahan numerik atau pembulatan sederhana; sebagai contoh0.07bisa terpotong ke0.0bukannya bulat . Tetapi mungkinkah angka tersebut merujuk pada kesalahan standar? Saya sering melihat angka-angka ditulis dengan cara yang membuatnya ambigu apakah standar deviasi atau kesalahan standar dikutip - misalnya, "mean sampel adalah1.62(±0.06)".


Betapa masuk akal untuk penyimpangan standar yang benar untuk membulatkan 0.0ke satu tempat desimal? Kode R berikut mensimulasikan satu juta sampel ukuran dua puluh yang diambil dari populasi standar deviasi0.06 (seperti yang telah dilaporkan di tempat lain untuk tinggi betina), temukan standar deviasi untuk setiap sampel, plot histogram hasil, dan hitung proporsi sampel di mana standar deviasi yang diamati berada di bawah 0.05:

set.seed(123) #so uses same random numbers each time code is run
x <- replicate(1e6, sd(rnorm(20, sd=0.06)))
hist(x)
sum(x < 0.05)/1e6

[1] 0.170691

Histogram deviasi standar sampel

Oleh karena itu standar deviasi yang membulat ke 0.0 tidak tidak masuk akal, terjadi sekitar tujuh belas persen dari waktu jika ketinggian biasanya didistribusikan dengan standar deviasi sejati 0.06.

Tunduk pada asumsi ini kita juga dapat menghitung, daripada mensimulasikan, probabilitas itu sekitar tujuh belas persen, sebagai berikut:

P(S2<0.052)=P(19S20.062<19×0.0520.062)=P(19S20.062<13.194)=0.1715

di mana kita telah menggunakan fakta itu (n1)S2/σ2=19S2/0.062 mengikuti distribusi chi-squared dengan n1=19derajat kebebasan. Anda dapat menghitung probabilitas dalam R menggunakan pchisq(q = 19*0.05^2/0.06^2, df = 19); jika Anda ganti0.06 oleh 0.07sejalan dengan angka yang diterbitkan untuk standar deviasi pria, probabilitas berkurang menjadi sekitar empat persen. Seperti @whuber tunjukkan dalam komentar di bawah ini, SD "putaran ke nol" kecil ini lebih mungkin terjadi jika kelompok sampel yang diambil lebih homogen daripada populasi umum. Jika standar deviasi populasi sekitar0.06 meter, maka kemungkinan mendapatkan standar deviasi sampel kecil juga akan menurun jika ukuran sampel lebih besar.

curve(pchisq(q = 19*0.05^2/x^2, df = 19), from=0.005, to=0.1,
      xlab="Population SD", ylab="Probability sample SD < 0.05 if n = 20")

Kemungkinan SD sampel rendah turun jika populasi SD meningkat

curve(pchisq(q = (x-1)*0.05^2/0.06^2, df = x-1), from=2, to=50, ylim=c(0,0.6),
      xlab="Sample size", ylab="Probability sample SD < 0.05 if population SD = 0.06")

Probabilitas SD sampel rendah turun jika ukuran sampel naik

Gegat
sumber
5
+1. Juga masuk akal bahwa penelitian itu adalah, katakanlah, sekelompok orang dari populasi yang homogen, seperti tim olah raga, kelompok pemandu sorak, dll., Dalam hal ini SD dengan sangat baik bisa jadi 0,01 m atau kurang.
whuber
@whuber Poin bagus! Saya bertanya-tanya bagaimana masuk akal mungkin untuk SD untuk bahkan bulat ke 0,00 (yaitu menjadi kurang dari 0,005) dan terkejut betapa ketatnya kondisi untuk ini sebenarnya. Mungkin tidak seharusnya, karena itu benar-benar bermuara pada pembatalan rasio. Tetapi misalnya, jika pemandu sorak memiliki populasi SD = 0,01, maka pchisq(q = 19*0.005^2/0.01^2, df = 19)hanya memberi kemungkinan 0,04% sampel SD <0,005. Bahkan populasi SD = 0,008 memberikan probabilitas hanya sekitar 0,8%. Tetapi populasi SD sebesar 0,007, 0,006 dan 0,005 masing-masing memberikan probabilitas 4%, 17% (tidak ada kebetulan!) Dan 54%
Silverfish
3
Saya bisa membayangkan beberapa cara untuk mendapatkan variasi yang sangat sedikit. Bayangkan suatu kondisi yang memaksakan ketinggian minimum atau maksimum - misalnya di masa lalu, banyak tentara telah memberlakukan ketinggian maksimum untuk awak tank mereka, misalnya, atau beberapa tempat memiliki ketinggian minimum untuk polisi. Jika kita mengambil awak tertinggi di setiap peleton tangki (diberikan aturan ketinggian maksimum historis khas, yang biasanya jauh di bawah tinggi rata-rata) dan menemukan standar deviasi sampel ketinggian mereka, itu akan cenderung sangat kecil, karena ketinggian itu akan cenderung macet melawan batas.
Glen_b -Reinstate Monica
Mengingat bahwa tidak ada bahasa atau alat yang ditentukan dalam pertanyaan, 0,0 tidak selalu menunjukkan pembulatan atau pemotongan ke satu tempat desimal. 0,0 bisa saja bagaimana bahasa yang bersangkutan menampilkan 0 sebagai angka desimal / floating point (yang dilakukan beberapa bahasa).
NotThatGuy
2

Ini hampir pasti merupakan kesalahan pelaporan, kecuali orang-orang dipilih karena ketinggian itu.

Peter Flom
sumber