Asumsikan situasi berikut:
kami memiliki sejumlah besar (misalnya 20) dengan ukuran kelompok kecil (misalnya n = 3). Saya perhatikan bahwa jika saya menghasilkan nilai dari distribusi seragam, residu akan terlihat normal meskipun distribusi kesalahan seragam. Kode R berikut menunjukkan perilaku ini:
n.group = 200
n.per.group = 3
x <- runif(n.group * n.per.group)
gr <- as.factor(rep(1:n.group, each = n.per.group))
means <- tapply(x, gr, mean)
x.res <- x - means[gr]
hist(x.res)
Jika saya melihat sisa sampel dalam kelompok tiga, alasan perilaku jelas:
Karena adalah jumlah variabel acak dengan standar deviasi yang tidak berbeda, distribusinya sedikit lebih dekat dengan distribusi normal daripada ketentuan individual.
Sekarang anggap saya memiliki situasi yang sama dengan data nyata, bukan data simulasi. Saya ingin menilai apakah asumsi ANOVA mengenai normalitas berlaku. Prosedur yang paling direkomendasikan merekomendasikan inspeksi visual residu (misalnya QQ-Plot) atau tes normalitas pada residu. Seperti contoh saya di atas ini tidak benar-benar optimal untuk ukuran kelompok kecil.
Apakah ada alternatif yang lebih baik ketika saya memiliki banyak kelompok ukuran kecil?
Jawaban:
Bekerja pada jawaban ini, tidak sepenuhnya selesai. Saya memiliki beberapa wawasan tentang ini tetapi perlu waktu untuk menjelaskan. Untuk ini, mari kita pertimbangkan bahwa standar deviasi bias untuk jumlah kecil. Alasan untuk ini adalah bahwa jika kita mengambil dua angka , kita dengan sewenang-wenang menetapkan sampel berarti menjadi , di mana rata-rata populasi, , bisa berada di mana saja pada interval antara atau bisa jadi atau . Ini berarti bahwa pada rata-rata . Dengan demikian, Hanya ketika yang bias ini menjadi kecila<b a+b2 σ (a,b) σ<a σ>b SD<σ n>100 . Untuk rangkaian panjang SD untuk jumlah sampel kecil masing-masing, perhitungan SD menjadi lebih tepat, dan lebih jelas tidak akurat.
Sekarang, alih-alih mengangkat tangan dengan frustrasi, kita dapat menerapkan koreksi angka kecil untuk SD kita dalam kondisi normal. (Ha! Ada solusi untuk kesengsaraan kita.)
E[μ]SD(n)μ(n)=2n−1−−−√Γ(n2)Γ(n−12)=1−14n−732n2−19128n3+O(n−4) lihatE[μ]
Untukn=3 Γ(32)=π√2≈0.8862269255 σ
Sekarang jika Anda hadir Anda memiliki beberapa hal lain yang terjadi juga. Seperti yang terjadi, ukuran terbaik dari lokasi distribusi yang seragam bukan berarti. Meskipun rata-rata sampel dan median sampel adalah penaksir yang tidak memihak dari titik tengah, tidak ada yang seefisien kisaran menengah sampel, yaitu, rata-rata aritmatika dari sampel maksimum dan sampel minimum, yang merupakan penaksir tidak bias varians minimum- UMVU estimator titik tengah (dan juga estimasi kemungkinan maksimum).
Sekarang untuk daging masalah ini. Jika Anda menggunakan rata-rata nilai ekstrem, varians ukuran lokasi akan lebih kecil, asalkan data Anda benar-benar terdistribusi seragam. Ini mungkin didistribusikan secara normal karena nilai ekor tunggal mungkin sangat normal. Namun, dengan hanya 3 sampel, standar deviasi perlu diperbaiki.
sumber