Apakah penting untuk menguji normalitas dengan ukuran sampel yang sangat kecil (misalnya, n = 6)?

26

Saya memiliki ukuran sampel 6. Dalam kasus seperti itu, apakah masuk akal untuk menguji normalitas menggunakan tes Kolmogorov-Smirnov? Saya menggunakan SPSS. Saya memiliki ukuran sampel yang sangat kecil karena butuh waktu untuk mendapatkannya. Jika tidak masuk akal, berapa banyak sampel adalah jumlah terendah yang masuk akal untuk diuji?

Catatan: Saya melakukan beberapa percobaan terkait dengan kode sumber. Sampel waktu yang dihabiskan untuk coding dalam versi perangkat lunak (versi A) Sebenarnya, saya memiliki ukuran sampel lain dari 6 yang waktu yang dihabiskan untuk coding di lain versi software (versi B)

Saya ingin melakukan pengujian hipotesis menggunakan one-sample t-test untuk menguji apakah waktu yang dihabiskan dalam kode versi A berbeda dari waktu yang dihabiskan dalam kode versi B atau tidak (Ini adalah H1 saya). Prasyarat uji satu sampel adalah bahwa data yang akan diuji harus didistribusikan secara normal. Itu sebabnya saya perlu menguji normalitas.

BB01
sumber
6
Saya, misalnya, mengalami kesulitan membayangkan konteks di mana n = 6 dan normalitas akan menjadi hipotesis yang layak diuji. Saya khawatir ini adalah kasus pengguna yang tidak berpengalaman melakukan pengujian hipotesis berganda (menjalankan regresi kemudian menguji normalitas residual) dan bahwa kita sedang mengatasi gejalanya tetapi mengabaikan kerangka di lemari, bisa dikatakan.
user603
3
@ Pengguna Tidak adil berspekulasi tentang si penanya. Mari kita menjawab pertanyaan, ya? Jadi, anggaplah Anda berencana untuk menghitung batas prediksi atas untuk nilai yang akan digunakan untuk membuat keputusan yang mahal. Nilai PL akan peka terhadap asumsi normalitas. Anda cukup yakin proses menghasilkan data tidak normal, tetapi data mahal dan memakan waktu untuk menghasilkan. Eksperimen sebelumnya menunjukkan akan cukup kuat untuk menolak normalitas. (Saya baru saja dijelaskan kerangka kerja standar untuk program air tanah pemantauan di AS.)n=6
whuber
3
User603 (ulang komentar pertama Anda): Saya ingin menunjukkan bahwa @Joris belum memberikan jawaban, juga komentarnya tidak disertai dengan justifikasi apa pun. Jika "tidak" tegas adalah jawaban umum yang valid untuk pertanyaan ini, mari kita lihat itu ditulis demikian, dengan argumen yang mendukung, sehingga dapat dievaluasi atas dan ke bawah oleh masyarakat.
whuber
2
@whuber: Saya menambahkan argumen untuk tegas "tidak".
Joris Meys
1
@ Jean Terima kasih! Itu membantu dan menerangi.
whuber

Jawaban:

38

Iya nih.

Semua tes hipotesis memiliki dua sifat yang menonjol : ukurannya (atau "tingkat signifikansi"), angka yang secara langsung terkait dengan kepercayaan dan tingkat positif palsu yang diharapkan, dan kekuatan mereka , yang mengungkapkan kemungkinan negatif palsu. Ketika ukuran sampel kecil dan Anda terus bersikeras pada ukuran kecil (kepercayaan tinggi), kekuatan semakin memburuk. Ini berarti bahwa tes sampel kecil biasanya tidak dapat mendeteksi perbedaan kecil atau sedang. Tetapi mereka masih bermakna .

Tes KS menilai apakah sampel tampaknya berasal dari distribusi Normal. Sampel dari enam nilai harus terlihat sangat tidak normal memang untuk gagal dalam tes ini. Tetapi jika ya, Anda dapat menginterpretasikan penolakan ini dari nol persis seperti yang Anda tafsirkan dengan ukuran sampel yang lebih tinggi. Di sisi lain, jika tes gagal untuk menolak hipotesis nol, itu memberitahu Anda sedikit, karena tingkat negatif palsu yang tinggi. Secara khusus, itu akan relatif berisiko untuk bertindak seolah-olah distribusi yang mendasarinya adalah Normal.

Satu hal lagi yang harus diperhatikan di sini: beberapa perangkat lunak menggunakan perkiraan untuk menghitung nilai-p dari statistik uji. Seringkali perkiraan ini bekerja dengan baik untuk ukuran sampel yang besar tetapi bertindak buruk untuk ukuran sampel yang sangat kecil. Ketika hal ini terjadi, Anda tidak dapat mempercayai bahwa nilai-p telah dihitung dengan benar, yang berarti Anda tidak dapat memastikan bahwa ukuran pengujian yang diinginkan telah tercapai. Untuk detailnya, bacalah dokumentasi perangkat lunak Anda.

Beberapa saran: Tes KS secara substansial kurang kuat untuk menguji normalitas daripada tes lain yang dibuat khusus untuk tujuan ini. Yang terbaik dari mereka mungkin adalah tes Shapiro-Wilk , tetapi yang lain yang biasa digunakan dan hampir sama kuatnya adalah Shapiro-Francia dan Anderson-Darling .

Plot ini menampilkan distribusi statistik uji Kolmogorov-Smirnov dalam 10.000 sampel dari enam varian yang terdistribusi normal:

Histogram statistik KS

α=5%

0.000, 0.001, 0.002, 1.000, 1.001, 1000000

Statistik uji adalah 0,5 (yang kurang dari nilai kritis). Sampel semacam itu akan ditolak menggunakan tes normalitas lainnya.

whuber
sumber
10
Saya pikir distribusi apa pun yang memberikan nilai sig. hasil dengan N = 6 akan sangat tidak normal sehingga akan lulus IOTT dengan warna terbang - itulah tes trauma interokular. Ini menyentuh Anda di antara mata.
Peter Flom - Pasang kembali Monica
2
N=6N=6
Hanya untuk bersenang - senang, saya mencoba set.seed (3833782) x <- runif (6) ks.test (x, pnorm) Ini signifikan pada p = .04. Jadi itu bisa terjadi
Peter Flom - Reinstate Monica
4
@Peter Bagus! Tes KS untuk normalitas telah menolak sampel yang seragam. Itulah yang kita harapkan.
whuber
3
set.seed(140);x=rnorm(6);ks.test(x,pnorm)menghasilkan p-value = 0.0003255. Tentu saja saya harus mencobanya dengan 140 biji sebelum saya menemukan ini ...
Spacedman
20

Seperti @whuber tanyakan dalam komentar, validasi untuk kategori saya NO. sunting: dengan uji shapiro, karena uji satu sampel ks sebenarnya salah digunakan. Whuber benar: Untuk penggunaan yang benar dari tes Kolmogorov-Smirnov, Anda harus menentukan parameter distribusi dan tidak mengekstraknya dari data. Namun ini adalah apa yang dilakukan dalam paket statistik seperti SPSS untuk uji satu sampel KS.

Anda mencoba mengatakan sesuatu tentang distribusi, dan Anda ingin memeriksa apakah Anda dapat menerapkan uji-t. Jadi tes ini dilakukan untuk mengkonfirmasi bahwa data tidak menyimpang dari normalitas cukup signifikan untuk membuat asumsi yang mendasari analisis tidak valid. Oleh karena itu, Anda tidak tertarik pada kesalahan tipe I, tetapi kesalahan tipe II.

Sekarang kita harus mendefinisikan "sangat berbeda" untuk dapat menghitung minimum n untuk daya yang dapat diterima (katakanlah 0.8). Dengan distribusi, itu tidak mudah untuk didefinisikan. Karenanya, saya tidak menjawab pertanyaan itu, karena saya tidak dapat memberikan jawaban yang masuk akal selain dari aturan praktis yang saya gunakan: n> 15 dan n <50. Berdasarkan apa? Pada dasarnya perasaan Gut, jadi saya tidak bisa mempertahankan pilihan itu selain dari pengalaman.

Tapi saya tahu bahwa dengan hanya 6 nilai kesalahan tipe II Anda pasti hampir 1, membuat kekuatan Anda mendekati 0. Dengan 6 pengamatan, tes Shapiro tidak dapat membedakan antara distribusi normal, poisson, seragam, atau bahkan eksponensial. Dengan kesalahan tipe II hampir 1, hasil tes Anda tidak berarti.

Untuk menggambarkan pengujian normalitas dengan uji shapiro:

shapiro.test(rnorm(6)) # test a the normal distribution
shapiro.test(rpois(6,4)) # test a poisson distribution
shapiro.test(runif(6,1,10)) # test a uniform distribution
shapiro.test(rexp(6,2)) # test a exponential distribution
shapiro.test(rlnorm(6)) # test a log-normal distribution

Satu-satunya di mana sekitar setengah dari nilai lebih kecil dari 0,05, adalah yang terakhir. Yang juga merupakan kasus paling ekstrem.


jika Anda ingin mencari tahu berapa n minimum yang memberi Anda kekuatan yang Anda sukai dengan tes shapiro, orang dapat melakukan simulasi seperti ini:

results <- sapply(5:50,function(i){
  p.value <- replicate(100,{
    y <- rexp(i,2)
    shapiro.test(y)$p.value
  })
  pow <- sum(p.value < 0.05)/100
  c(i,pow)
})

yang memberi Anda analisis kekuatan seperti ini:

masukkan deskripsi gambar di sini

dari mana saya menyimpulkan bahwa Anda memerlukan sekitar 20 nilai minimum untuk membedakan eksponensial dari distribusi normal di 80% kasus.

plot kode:

plot(lowess(results[2,]~results[1,],f=1/6),type="l",col="red",
    main="Power simulation for exponential distribution",
    xlab="n",
    ylab="power"
)
Joris Meys
sumber
2
@whuber: mengenai logika pengujian hipotesis di kepalanya: dalam hal apa Anda tertarik dengan hipotesis alternatif? Dalam semua aplikasi tes ini yang pernah saya lihat, orang tertarik pada konfirmasi nol: data saya tidak berbeda secara signifikan dari distribusi normal. Itulah sebabnya saya menekankan kesalahan tipe II.
Joris Meys
4
n5
4
n=8n
3
@whuber: Kita harus setuju untuk berbeda. Saya tidak sepenuhnya penggemar pedoman EPA (dan pasti bukan dari FDA). Saya sudah melihat ini terlalu sering disalahgunakan untuk tetap percaya akan manfaatnya. Peluang adalah hal yang aneh, dan dengan hanya 6 kasus yang sangat tidak terduga. Saya tidak percaya Anda bisa mengatakan apa-apa tentang fungsi kompleks seperti PDF hanya berdasarkan 6 pengamatan. YMMV
Joris Meys
5
@ ImAlso Uji-t dapat mentolerir banyak ketidaknormalan jika cukup simetris, tetapi tidak dapat mentoleransi terlalu banyak asimetri. (Memang, tes skewness untuk normalitas mungkin sebenarnya menjadi pilihan yang lebih baik dalam OP daripada tes KS, hanya untuk alasan ini.) Ini menunjukkan salah satu perbedaan terbesar antara tes goodness of fit dan tes hipotesis lainnya: ada sangat besar ruang alternatif yang memungkinkan dan tes GoF cenderung baik terhadap beberapa dari mereka tetapi tidak terhadap yang lain. Anda tidak dapat membuatnya bekerja dengan baik terhadap semua alternatif.
whuber
-2

Pertanyaan yang diajukan di sini memiliki beberapa kesalahpahaman bahwa mengapa pemeriksaan Normal diperlukan untuk ukuran sampel 6. Di sini tujuan utamanya adalah "untuk menguji apakah waktu yang dihabiskan dalam kode A berbeda dari waktu yang dihabiskan dalam kode B versi atau tidak ( Ini H1 saya) ”. Ketika kata "berbeda" digunakan, apakah itu tes satu ekor? Namun pengujian Normalitas adalah langkah kedua. Langkah pertama adalah memeriksa kecukupan kekuatan uji (1-β) yang telah ditentukan untuk ukuran sampel tertentu ketika daya sangat buruk lalu apa gunanya pengujian kondisi normalitas ?. Pemeriksaan kondisi normal akan membantu kami dalam memutuskan apakah akan mengikuti tes Parametrik atau Non-Parametrik ?. Jika ukuran sampel Anda tidak memiliki kekuatan yang memadai mengapa orang harus memikirkan pengujian Normalitas ?.

pengguna202344
sumber
(-1) Ini sangat tidak jelas. Silakan baca halaman ini tentang bagaimana menjawab pertanyaan: stats.stackexchange.com/help/how-to-answer
mkt