Kesalahan standar suatu hitungan

14

Saya memiliki dataset kasus insiden berdasarkan musim penyakit langka. Misalnya, ada 180 kasus di musim semi, 90 di musim panas, 45 di musim gugur, dan 210 di musim dingin. Saya bergumul dengan apakah pantas untuk melampirkan kesalahan standar pada angka-angka ini. Tujuan penelitian dapat disimpulkan dalam arti bahwa kita mencari pola musiman dalam kejadian penyakit yang mungkin terulang di masa depan. Dengan demikian, rasanya secara intuitif seperti itu mungkin untuk melampirkan ukuran ketidakpastian pada total. Namun, saya tidak yakin bagaimana seseorang akan menghitung kesalahan standar dalam kasus ini karena kita berhadapan dengan jumlah sederhana daripada, misalnya, sarana atau proporsi.

Akhirnya, apakah jawabannya tergantung pada apakah data mewakili populasi kasus (setiap kasus yang pernah terjadi) atau sampel acak? Jika saya tidak salah, umumnya tidak masuk akal untuk menyajikan kesalahan standar dengan statistik populasi, karena tidak ada kesimpulan.

setengah lulus
sumber
Hitungan hanyalah proporsi yang tidak dinormalisasi sehingga Anda dapat menghitung st. kesalahan proporsi dan "tidak normal" menjadi unit hitungan, jika itu masuk akal untuk Anda. Anda benar st. kesalahan hanya berlaku untuk sampel. Dalam populasi, tidak ada kesalahan.
ttnphns

Jawaban:

14

Populasi adalah himpunan (hipotetis) dari semua orang yang berisiko terkena penyakit; biasanya, yang terdiri dari semua orang (atau beberapa subkelompok orang yang dapat diidentifikasi dengan jelas) yang berada di wilayah studi. Penting untuk mendefinisikan populasi ini dengan jelas, karena ini adalah target penelitian dan semua kesimpulan yang dibuat dari data.

Ketika kasus penyakit independen (yang mungkin merupakan hipotesis yang masuk akal ketika penyakit tidak mudah dikomunikasikan antara orang-orang dan tidak disebabkan oleh kondisi lingkungan setempat) dan mereka jarang, maka perhitungan harus mengikuti distribusi Poisson . Untuk distribusi ini, perkiraan standar deviasi yang baik adalah akar kuadrat dari perhitungan tersebut .

(180,90,45,210)(13.4,9.5,6.7,14.5)Bahkan, jumlah aktual penyakit yang diamati selama satu musim akan bervariasi dari angka sebenarnya. Akar kuadrat dari laju sebenarnya (tetapi tidak diketahui!) Mengkuantifikasi jumlah variasi yang mungkin terjadi. Karena diamati jumlah seharusnya menjadi dekat dengan tingkat sejati, mereka akar kuadrat harus proxy wajar untuk akar kuadrat dari tingkat yang benar. Proxy ini persis apa yang dimaksud dengan "kesalahan standar."

1657714.577

9(20,10,5,23)(4.5,3.2,2.2,4.8)9(40,28.5,20,44)

Sejauh yang bisa dilakukan dengan data terbatas ini. Perhitungan sederhana ini telah mengungkapkan bahwa:

  • Mengkarakterisasi populasi sangat penting,

  • Akar kuadrat dari hitungan adalah titik awal kasar untuk menilai kesalahan standarnya,

  • Akar kuadrat harus dikalikan (kira-kira) dengan beberapa faktor untuk mencerminkan kurangnya independensi dalam kasus penyakit (dan faktor ini kira-kira dapat dikaitkan dengan ukuran cluster penyakit),

  • Variasi di antara jumlah ini terutama mencerminkan variasi dalam tingkat penyakit dari waktu ke waktu daripada ketidakpastian (tentang intensitas Poisson yang mendasarinya).

whuber
sumber
1
Sangat bijaksana, jawaban menyeluruh! Terima kasih banyak.
setengah jalan
2

Saya tidak bercanda ketika saya bertanya, "Kesalahan standar tentang apa?" Anda dapat mengambil rata-rata dari keempat angka ini, dan Anda dapat menghitung kesalahan standar dari rata-rata itu. Statistik itu, dan interval kepercayaan yang dihasilkan, akan masuk akal jika Anda yakin telah dibenarkan dalam memperlakukan 4 musim itu sebagai perwakilan dari semua rangkaian 4 musim yang dapat Anda generalisasikan. Sejauh Anda dibenarkan, data yang Anda miliki memang akan menjadi sampel acak dari populasi. Pengambilan sampel yang Anda sebutkan akan memerlukan lapisan sampel tambahan - Anda bisa menyebutnya sampling cluster, di mana setiap tahun merupakan sebuah cluster.

rolando2
sumber