Plot QQ terlihat normal tetapi uji Shapiro-Wilk mengatakan sebaliknya

12

Dalam R, saya memiliki sampel 348 tindakan, dan ingin tahu apakah saya dapat berasumsi bahwa itu didistribusikan secara normal untuk tes di masa mendatang.

Pada dasarnya mengikuti jawaban Stack lain , saya melihat plot kepadatan dan plot QQ dengan:

plot(density(Clinical$cancer_age))

masukkan deskripsi gambar di sini

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

masukkan deskripsi gambar di sini

Saya tidak memiliki pengalaman yang kuat dalam Statistik, tetapi mereka terlihat seperti contoh distribusi normal yang saya lihat.

Lalu saya menjalankan tes Shapiro-Wilk:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

Jika saya menafsirkannya dengan benar, itu memberitahu saya aman untuk menolak hipotesis nol, yaitu bahwa distribusinya normal.

Namun, saya telah menemui dua posting Stack (di sini , dan di sini ), yang sangat merusak kegunaan tes ini. Sepertinya jika sampelnya besar (apakah 348 dianggap besar?), Akan selalu dikatakan bahwa distribusinya tidak normal.

Bagaimana saya harus menafsirkan semua itu? Haruskah saya tetap dengan plot QQ dan menganggap distribusi saya normal?

francoiskroll
sumber
4
Plot qq tampaknya menunjukkan keberangkatan dari normal di ekor. Juga setiap tes yang berguna tentang kecocokan yang baik akan ditolak dalam sampel yang sangat besar hanya karena akan ada penyimpangan kecil dari normalitas yang terdeteksi.
Michael R. Chernick
4
Mengapa menganggap distribusi normal penting bagi Anda? Apa yang ingin Anda lakukan berdasarkan asumsi itu?
Roland
6
Hanya untuk menambahkan komentar Roland - banyak tes yang secara resmi mengasumsikan distribusi normal sebenarnya cukup kuat di bawah sedikit penyimpangan dari normalitas (misalnya karena distribusi statistik uji secara asimptotik benar). Jika Anda dapat menguraikan tentang apa yang ingin Anda lakukan, Anda mungkin mendapatkan jawaban yang lebih bermanfaat.
P.Windridge
1
@ Astaga, pengamatan tajam! Ini bukan usia pada saat kejadian, tetapi "usia" tumor diukur dengan metilasi DNA.
francoiskroll
2
Saya pikir perlu memeriksa sejumlah kecil pengamatan ekstrim hanya untuk memeriksa apakah itu kesalahan pengukuran.
mdewey

Jawaban:

11

Anda tidak memiliki masalah di sini. Data Anda sedikit tidak normal, tetapi cukup normal sehingga tidak menimbulkan masalah. Banyak peneliti melakukan tes statistik dengan asumsi normalitas dengan data yang jauh lebih sedikit normal daripada yang Anda miliki.

Saya akan mempercayai mata Anda. Kepadatan dan plot QQ terlihat masuk akal, meskipun ada sedikit kecenderungan positif pada ekornya. Menurut pendapat saya, Anda tidak perlu khawatir tentang tidak normalnya data ini.

Anda memiliki N sekitar 350, dan nilai-p sangat tergantung pada ukuran sampel. Dengan sampel besar, hampir semua hal bisa menjadi signifikan. Ini sudah dibahas di sini.

Ada beberapa jawaban luar biasa pada posting yang sangat populer ini yang pada dasarnya sampai pada kesimpulan bahwa melakukan uji signifikansi nol-hipotesis untuk non-normalitas adalah "pada dasarnya tidak berguna." Jawaban yang diterima pada pos itu adalah demonstrasi yang luar biasa yang, bahkan ketika data dihasilkan dari proses yang hampir Gaussian, ukuran sampel yang cukup tinggi membuat tes non-normal signifikan.


Maaf, saya menyadari bahwa saya menautkan ke pos yang telah Anda sebutkan dalam pertanyaan awal Anda. Kesimpulan saya masih tetap ada: Data Anda tidak begitu tidak normal sehingga menimbulkan masalah.

Mark White
sumber
Hanya karena beberapa peneliti sangat ceroboh tidak berarti Anda bisa sedikit ceroboh :). Namun saya setuju dengan banyak tes statistik yang secara formal menganggap normalitas sebenarnya cukup toleran terhadap apa yang Anda makan
P.Windridge
2
"Hanya karena beberapa. Peneliti sangat ceroboh bukan berarti kamu bisa sedikit ceroboh :)" Poin wajar; itu adalah argumen yang buruk di pihak saya. "Namun saya setuju dengan banyak tes statistik yang secara formal menganggap normal sebenarnya cukup toleran terhadap apa yang Anda berikan." Ya memang. Setiap profesor quant yang pernah saya lihat di plot QQ seperti ini dan berkata, "Ya, tidak apa-apa."
Mark White
4

Distribusi Anda tidak normal. Lihatlah ekornya (atau kekurangannya). Di bawah ini adalah apa yang Anda harapkan dari plot QQ normal.

masukkan deskripsi gambar di sini

Lihat posting ini tentang cara menafsirkan berbagai plot QQ.

Perlu diingat bahwa sementara suatu distribusi mungkin secara teknis tidak normal, mungkin cukup normal untuk memenuhi syarat algoritma yang memerlukan normalitas.

memperbaiki
sumber
1
Apa yang Anda bicarakan, saya menjalankan 9 plot contoh qq normal langsung membentuk distribusi normal menggunakan kode set.seed (100) par (mfrow = c (3,3)) untuk (i dalam 1: 9) {x < - rnorm (350) qqnorm (x) qqline (x)} dan plot (3,2) terlihat sangat mirip dengan situasi OP.
Josh
1
Biasanya, Anda tidak ingin fokus pada ekor karena mereka sering aneh, meskipun ekor yang sangat buruk akan memberi Anda hasil yang buruk. Anda benar-benar ingin fokus di tengah.
Josh
kamu salah Josh. mohon naik banding ke tes normal untuk memeriksa apakah hipotesis nol dari kenormalan ditolak.
ganti rugi
1
Kamu benar. Saya awalnya membaca posting Anda karena plot qq tidak cukup normal, dan saya minta maaf.
Josh
2
@Josh, tengah distribusi hampir tidak penting untuk tes hipotesis; itu adalah ekor yang penting. Anda memilikinya mundur.
gung - Reinstate Monica