Saya memiliki dataset kasus insiden berdasarkan musim penyakit langka. Misalnya, ada 180 kasus di musim semi, 90 di musim panas, 45 di musim gugur, dan 210 di musim dingin. Saya bergumul dengan apakah pantas untuk melampirkan kesalahan standar pada angka-angka ini. Tujuan penelitian dapat disimpulkan dalam arti bahwa kita mencari pola musiman dalam kejadian penyakit yang mungkin terulang di masa depan. Dengan demikian, rasanya secara intuitif seperti itu mungkin untuk melampirkan ukuran ketidakpastian pada total. Namun, saya tidak yakin bagaimana seseorang akan menghitung kesalahan standar dalam kasus ini karena kita berhadapan dengan jumlah sederhana daripada, misalnya, sarana atau proporsi.
Akhirnya, apakah jawabannya tergantung pada apakah data mewakili populasi kasus (setiap kasus yang pernah terjadi) atau sampel acak? Jika saya tidak salah, umumnya tidak masuk akal untuk menyajikan kesalahan standar dengan statistik populasi, karena tidak ada kesimpulan.
sumber
Jawaban:
Populasi adalah himpunan (hipotetis) dari semua orang yang berisiko terkena penyakit; biasanya, yang terdiri dari semua orang (atau beberapa subkelompok orang yang dapat diidentifikasi dengan jelas) yang berada di wilayah studi. Penting untuk mendefinisikan populasi ini dengan jelas, karena ini adalah target penelitian dan semua kesimpulan yang dibuat dari data.
Ketika kasus penyakit independen (yang mungkin merupakan hipotesis yang masuk akal ketika penyakit tidak mudah dikomunikasikan antara orang-orang dan tidak disebabkan oleh kondisi lingkungan setempat) dan mereka jarang, maka perhitungan harus mengikuti distribusi Poisson . Untuk distribusi ini, perkiraan standar deviasi yang baik adalah akar kuadrat dari perhitungan tersebut .
Sejauh yang bisa dilakukan dengan data terbatas ini. Perhitungan sederhana ini telah mengungkapkan bahwa:
Mengkarakterisasi populasi sangat penting,
Akar kuadrat dari hitungan adalah titik awal kasar untuk menilai kesalahan standarnya,
Akar kuadrat harus dikalikan (kira-kira) dengan beberapa faktor untuk mencerminkan kurangnya independensi dalam kasus penyakit (dan faktor ini kira-kira dapat dikaitkan dengan ukuran cluster penyakit),
Variasi di antara jumlah ini terutama mencerminkan variasi dalam tingkat penyakit dari waktu ke waktu daripada ketidakpastian (tentang intensitas Poisson yang mendasarinya).
sumber
Saya tidak bercanda ketika saya bertanya, "Kesalahan standar tentang apa?" Anda dapat mengambil rata-rata dari keempat angka ini, dan Anda dapat menghitung kesalahan standar dari rata-rata itu. Statistik itu, dan interval kepercayaan yang dihasilkan, akan masuk akal jika Anda yakin telah dibenarkan dalam memperlakukan 4 musim itu sebagai perwakilan dari semua rangkaian 4 musim yang dapat Anda generalisasikan. Sejauh Anda dibenarkan, data yang Anda miliki memang akan menjadi sampel acak dari populasi. Pengambilan sampel yang Anda sebutkan akan memerlukan lapisan sampel tambahan - Anda bisa menyebutnya sampling cluster, di mana setiap tahun merupakan sebuah cluster.
sumber