Apa yang harus saya periksa normalitas: data mentah atau residu?

Saya telah belajar bahwa saya harus menguji normalitas bukan pada data mentah tetapi residu mereka. Haruskah saya menghitung residu dan kemudian melakukan tes W Shapiro-Wilk?

Apakah residu dihitung sebagai: ? $X_i - \text{mean}$

Silakan lihat pertanyaan sebelumnya untuk data saya dan desainnya.

normality-assumption residuals assumptions stan
sumber

Apakah Anda melakukan ini menggunakan perangkat lunak (dan jika demikian perangkat lunak mana) atau apakah Anda mencoba melakukan perhitungan dengan tangan?

Chris Simokat

@ Chris Simokat: Saya mencoba melakukan ini dengan R dan Statistika ...

stan

Pertanyaan ini mungkin menarik: bagaimana-jika-residual-biasanya-didistribusikan-tetapi-y-bukan- ; itu juga mencakup masalah apakah normalitas diperlukan dari data mentah atau residu.

gung - Reinstate Monica

Maaf, saya tidak cukup paham dengan SAS untuk mengetahui bagaimana membuatnya melakukannya secara otomatis dalam situasi yang berbeda. Namun, ketika Anda menjalankan regresi, Anda harus dapat menyimpan residu ke dataset keluaran, & plot qq kemudian dapat dibuat.

gung - Reinstate Monica

Info bagus oleh Karen Grace-Martin: ini dan ini

stan

Jawaban:

Mengapa Anda harus menguji normalitas?

Asumsi standar dalam regresi linier adalah bahwa residual teoretis independen dan terdistribusi normal. Residu yang diamati adalah perkiraan residu teoritis, tetapi tidak independen (ada transformasi pada residu yang menghilangkan beberapa ketergantungan, tetapi masih memberikan hanya perkiraan residu yang sebenarnya). Jadi tes pada residu yang diamati tidak menjamin bahwa residu teoritis cocok.

Jika residual teoretis tidak terdistribusi secara normal, tetapi ukuran sampel cukup besar maka Teorema Limit Sentral mengatakan bahwa inferensi biasa (interval uji dan kepercayaan, tetapi interval prediksi tidak harus) berdasarkan asumsi normalitas masih akan kurang lebih benar. .

Perhatikan juga bahwa uji normalitas adalah tes yang tidak berlaku, mereka dapat memberi tahu Anda bahwa data tidak mungkin berasal dari distribusi normal. Tetapi jika tes tidak signifikan itu tidak berarti bahwa data berasal dari distribusi normal, itu juga bisa berarti bahwa Anda tidak memiliki kekuatan yang cukup untuk melihat perbedaannya. Ukuran sampel yang lebih besar memberi daya lebih besar untuk mendeteksi ketidaknormalan, tetapi sampel yang lebih besar dan CLT berarti bahwa ketidaknormalan paling tidak penting. Jadi untuk ukuran sampel kecil, asumsi normalitas penting tetapi tes tidak berarti, untuk ukuran sampel besar tes mungkin lebih akurat, tetapi pertanyaan tentang normalitas yang tepat menjadi tidak berarti.

Jadi, menggabungkan semua hal di atas, yang lebih penting daripada tes normalitas yang tepat adalah pemahaman ilmu di balik data untuk melihat apakah populasi cukup dekat dengan normal. Grafik seperti qqplots bisa menjadi diagnosa yang baik, tetapi pemahaman sains juga diperlukan. Jika ada kekhawatiran bahwa ada terlalu banyak kemiringan atau potensi outlier, maka tersedia metode non-parametrik yang tidak memerlukan asumsi normalitas.

Greg Snow
sumber

Untuk menjawab pertanyaan di baris pertama: Perkiraan normalitas sangat penting untuk menerapkan uji-F di ANOVA dan untuk menciptakan batas kepercayaan di sekitar varian. (+1) untuk ide-ide bagus.

whuber

@whuber, ya perkiraan normal itu penting, tetapi tes menguji normalitas yang tepat, bukan perkiraan. Dan untuk ukuran sampel besar yang diperkirakan tidak harus sangat dekat (di mana tes kemungkinan besar akan ditolak). Plot dan pengetahuan sains yang baik yang menghasilkan data jauh lebih bermanfaat daripada tes formalitas normal jika Anda membenarkan menggunakan uji-F (atau inferensi normal lainnya).

Greg Snow

Greg, OK saya melakukan distribusi pas dan melihat data saya berasal, katakanlah, distribusi Beta atau Gamma dan apa yang harus saya lakukan? ANOVA yang mengasumsikan hukum Gaussian?

stan

(+1) Ini berjalan baik kecuali pada akhirnya. Anda tidak harus memilih antara (a) regresi berdasarkan asumsi normalitas dan (b) prosedur nonparametrik. Transformasi sebelum regresi dan / atau model linear umum hanyalah dua alternatif utama. Saya menyadari bahwa Anda tidak mencoba merangkum semua hal tentang pemodelan statistik, tetapi bagian terakhir bisa sedikit diperkuat.

Nick Cox

Jadi pada akhirnya, dalam regresi linier, kita harus menguji normalitas data mentah atau normalitas residual?

vasili111

Asumsi Asumsi mengacu pada residu dari model. Tidak ada asumsi yang diperlukan tentang data asli. Sebagai contoh, distribusi penjualan bir harian. masukkan deskripsi gambar di sini Setelah model yang masuk akal menangkap efek hari libur, liburan / acara, perubahan level / tren waktu yang kita dapatkan

IrishStat
sumber

terima kasih untuk balasan Anda. Anda ingin mengatakan bahwa kami dapat mengubah data kami menjadi distribusi Gaussian ...?

stan

Stan, peran pemodelan adalah melakukan tepat sehingga kesimpulan dapat dibuat dan diuji hipotesis.

IrishStat

Pertama, Anda dapat "mengamati" menggunakan plot QQ untuk mendapatkan pengertian umum di sini adalah bagaimana menghasilkan satu di R.

Menurut manual R Anda dapat memberi makan vektor data Anda langsung ke fungsi shapiro.test ().

Jika Anda ingin menghitung residu sendiri ya masing-masing residu dihitung seperti itu selama set pengamatan Anda. Anda dapat melihatnya di sini .

Chris Simokat
sumber

Jadi, sejauh yang saya mengerti metode untuk Normalitas sebenarnya memeriksa normalitas residual dari data mentah kami. Mereka melakukannya secara otomatis dan kita tidak boleh menghitung residu dan mengujinya. Dan dalam percakapan sehari-hari kita biasanya beralih ke "data saya terdistribusi normal" dengan asumsi residu data saya "normal". Tolong perbaiki saya.

stan

Saya tidak setuju dengan poin terakhir Anda. Orang yang mengatakan data saya terdistribusi normal biasanya tidak mengacu pada residu. Saya pikir orang mengatakan itu karena mereka pikir setiap prosedur statistik memerlukan semua data menjadi normal.

Glen

@ Gllen terus terang saya (salah) berpikir sama sejauh ini ... Saya tidak bisa mengerti (ini masalah saya) jika saya memiliki gamma atau beta atau data terdistribusi apa pun yang harus saya lakukan statistik untuk mereka sebagai sama seperti biasanya didistribusikan meskipun distribusi alami / alami mereka? Dan fakta distribusi hanya untuk indikasi? Saya hanya kenal distribusi Gaussian sebelum situs ini ...

stan