Dalam R, saya memiliki sampel 348 tindakan, dan ingin tahu apakah saya dapat berasumsi bahwa itu didistribusikan secara normal untuk tes di masa mendatang.
Pada dasarnya mengikuti jawaban Stack lain , saya melihat plot kepadatan dan plot QQ dengan:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
Saya tidak memiliki pengalaman yang kuat dalam Statistik, tetapi mereka terlihat seperti contoh distribusi normal yang saya lihat.
Lalu saya menjalankan tes Shapiro-Wilk:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
Jika saya menafsirkannya dengan benar, itu memberitahu saya aman untuk menolak hipotesis nol, yaitu bahwa distribusinya normal.
Namun, saya telah menemui dua posting Stack (di sini , dan di sini ), yang sangat merusak kegunaan tes ini. Sepertinya jika sampelnya besar (apakah 348 dianggap besar?), Akan selalu dikatakan bahwa distribusinya tidak normal.
Bagaimana saya harus menafsirkan semua itu? Haruskah saya tetap dengan plot QQ dan menganggap distribusi saya normal?
sumber
Jawaban:
Anda tidak memiliki masalah di sini. Data Anda sedikit tidak normal, tetapi cukup normal sehingga tidak menimbulkan masalah. Banyak peneliti melakukan tes statistik dengan asumsi normalitas dengan data yang jauh lebih sedikit normal daripada yang Anda miliki.
Saya akan mempercayai mata Anda. Kepadatan dan plot QQ terlihat masuk akal, meskipun ada sedikit kecenderungan positif pada ekornya. Menurut pendapat saya, Anda tidak perlu khawatir tentang tidak normalnya data ini.
Anda memiliki N sekitar 350, dan nilai-p sangat tergantung pada ukuran sampel. Dengan sampel besar, hampir semua hal bisa menjadi signifikan. Ini sudah dibahas di sini.
Ada beberapa jawaban luar biasa pada posting yang sangat populer ini yang pada dasarnya sampai pada kesimpulan bahwa melakukan uji signifikansi nol-hipotesis untuk non-normalitas adalah "pada dasarnya tidak berguna." Jawaban yang diterima pada pos itu adalah demonstrasi yang luar biasa yang, bahkan ketika data dihasilkan dari proses yang hampir Gaussian, ukuran sampel yang cukup tinggi membuat tes non-normal signifikan.
Maaf, saya menyadari bahwa saya menautkan ke pos yang telah Anda sebutkan dalam pertanyaan awal Anda. Kesimpulan saya masih tetap ada: Data Anda tidak begitu tidak normal sehingga menimbulkan masalah.
sumber
Distribusi Anda tidak normal. Lihatlah ekornya (atau kekurangannya). Di bawah ini adalah apa yang Anda harapkan dari plot QQ normal.
Lihat posting ini tentang cara menafsirkan berbagai plot QQ.
Perlu diingat bahwa sementara suatu distribusi mungkin secara teknis tidak normal, mungkin cukup normal untuk memenuhi syarat algoritma yang memerlukan normalitas.
sumber