Saya telah belajar bahwa saya harus menguji normalitas bukan pada data mentah tetapi residu mereka. Haruskah saya menghitung residu dan kemudian melakukan tes W Shapiro-Wilk?
Apakah residu dihitung sebagai: ?
Silakan lihat pertanyaan sebelumnya untuk data saya dan desainnya.
Jawaban:
Mengapa Anda harus menguji normalitas?
Asumsi standar dalam regresi linier adalah bahwa residual teoretis independen dan terdistribusi normal. Residu yang diamati adalah perkiraan residu teoritis, tetapi tidak independen (ada transformasi pada residu yang menghilangkan beberapa ketergantungan, tetapi masih memberikan hanya perkiraan residu yang sebenarnya). Jadi tes pada residu yang diamati tidak menjamin bahwa residu teoritis cocok.
Jika residual teoretis tidak terdistribusi secara normal, tetapi ukuran sampel cukup besar maka Teorema Limit Sentral mengatakan bahwa inferensi biasa (interval uji dan kepercayaan, tetapi interval prediksi tidak harus) berdasarkan asumsi normalitas masih akan kurang lebih benar. .
Perhatikan juga bahwa uji normalitas adalah tes yang tidak berlaku, mereka dapat memberi tahu Anda bahwa data tidak mungkin berasal dari distribusi normal. Tetapi jika tes tidak signifikan itu tidak berarti bahwa data berasal dari distribusi normal, itu juga bisa berarti bahwa Anda tidak memiliki kekuatan yang cukup untuk melihat perbedaannya. Ukuran sampel yang lebih besar memberi daya lebih besar untuk mendeteksi ketidaknormalan, tetapi sampel yang lebih besar dan CLT berarti bahwa ketidaknormalan paling tidak penting. Jadi untuk ukuran sampel kecil, asumsi normalitas penting tetapi tes tidak berarti, untuk ukuran sampel besar tes mungkin lebih akurat, tetapi pertanyaan tentang normalitas yang tepat menjadi tidak berarti.
Jadi, menggabungkan semua hal di atas, yang lebih penting daripada tes normalitas yang tepat adalah pemahaman ilmu di balik data untuk melihat apakah populasi cukup dekat dengan normal. Grafik seperti qqplots bisa menjadi diagnosa yang baik, tetapi pemahaman sains juga diperlukan. Jika ada kekhawatiran bahwa ada terlalu banyak kemiringan atau potensi outlier, maka tersedia metode non-parametrik yang tidak memerlukan asumsi normalitas.
sumber
Asumsi Asumsi mengacu pada residu dari model. Tidak ada asumsi yang diperlukan tentang data asli. Sebagai contoh, distribusi penjualan bir harian. Setelah model yang masuk akal menangkap efek hari libur, liburan / acara, perubahan level / tren waktu yang kita dapatkan
sumber
Pertama, Anda dapat "mengamati" menggunakan plot QQ untuk mendapatkan pengertian umum di sini adalah bagaimana menghasilkan satu di R.
Menurut manual R Anda dapat memberi makan vektor data Anda langsung ke fungsi shapiro.test ().
Jika Anda ingin menghitung residu sendiri ya masing-masing residu dihitung seperti itu selama set pengamatan Anda. Anda dapat melihatnya di sini .
sumber