Saya ingin melakukan tes W Shapiro Wilk dan tes Kolmogorov-Smirnov pada residu model linier untuk memeriksa normalitas. Saya hanya bertanya-tanya residual apa yang harus digunakan untuk ini - residu mentah, residu Pearson, residu pelajar atau residu terstandarisasi? Untuk uji W Shapiro-Wilk tampak bahwa hasil untuk residu baku & Pearson identik tetapi tidak untuk yang lain.
fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143
Pertanyaan yang sama untuk KS, dan juga apakah residu harus diuji terhadap distribusi normal (pnorm) seperti pada
ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563
atau distribusi t-student dengan nk-2 derajat kebebasan, seperti pada
ks.test(res3, "pt",df=nrow(mtcars)-2-2)
Adakah saran? Juga, apa nilai yang direkomendasikan untuk statistik uji W (> 0,9?) Dan D agar distribusi cukup dekat dengan normalitas dan tidak terlalu mempengaruhi inferensi Anda?
Akhirnya, apakah pendekatan ini memperhitungkan ketidakpastian dalam koefisien lm yang dipasang, atau apakah fungsi cumres()
dalam paket gof()
akan lebih baik dalam hal ini?
bersorak, Tom
sumber
Jawaban:
Tumbuh terlalu lama untuk komentar.
Untuk model regresi biasa (seperti yang akan dipasang oleh
lm
), tidak ada perbedaan antara dua tipe residual pertama yang Anda pertimbangkan;type="pearson"
relevan untuk GLM non-Gaussian, tetapi sama denganresponse
untuk model gaussian.Pengamatan Anda menerapkan tes Anda untuk (beberapa bentuk residu) tidak independen, sehingga statistik biasa tidak memiliki distribusi yang benar. Lebih lanjut, sebenarnya, tidak ada residu yang Anda anggap normal, karena data Anda tidak akan pernah benar-benar normal. [Pengujian formal menjawab pertanyaan yang salah - pertanyaan yang lebih relevan adalah 'berapa banyak ketidaknormalan ini akan mempengaruhi inferensi saya?', Sebuah pertanyaan yang tidak dijawab oleh pengujian hipotesis goodness of fit yang biasa.]
Sekalipun data Anda benar-benar normal, residual jenis ketiga atau keempat tidak akan benar-benar normal. Namun demikian, jauh lebih umum bagi orang untuk memeriksanya (misalnya dengan plot QQ) daripada residu mentah.
Anda dapat mengatasi beberapa masalah dalam 2. dan 3. (ketergantungan pada residu serta non-normal pada residu standar) dengan simulasi tergantung pada matriks desain Anda (X ), artinya Anda dapat menggunakan residu mana saja yang Anda suka (namun Anda tidak dapat menangani masalah "menjawab pertanyaan tidak membantu yang sudah Anda ketahui jawabannya").
sumber