Seberapa salahkah model regresi ketika asumsi tidak terpenuhi?

28

Ketika memasang model regresi, apa yang terjadi jika asumsi output tidak terpenuhi, khususnya:

  1. Apa yang terjadi jika residunya tidak bersifat homoseksual? Jika residu menunjukkan pola meningkat atau menurun pada Residual vs Fitted plot.
  2. Apa yang terjadi jika residu tidak terdistribusi secara normal, dan gagal dalam tes Shapiro-Wilk? Uji normalitas Shapiro-Wilk adalah tes yang sangat ketat, dan kadang-kadang bahkan jika plot Normal-QQ terlihat agak masuk akal, data gagal dalam pengujian.
  3. Apa yang terjadi jika satu atau lebih prediktor tidak terdistribusi secara normal, tidak terlihat benar pada plot Normal-QQ atau jika data gagal dalam tes Shapiro-Wilk?

Saya mengerti bahwa tidak ada pembagian hitam dan putih yang keras, bahwa 0,94 benar dan 0,95 salah, dan dalam pertanyaan, saya ingin tahu:

  1. Apa yang tidak berarti normalitas untuk model yang cocok dengan nilai R-Squared. Apakah itu menjadi kurang dapat diandalkan, atau sama sekali tidak berguna?
  2. Sejauh mana, penyimpangan itu dapat diterima, atau apakah bisa diterima sama sekali?
  3. Ketika menerapkan transformasi pada data untuk memenuhi kriteria normalitas, apakah model menjadi lebih baik jika data lebih normal (nilai-P lebih tinggi pada uji Shapiro-Wilk, lebih baik dilihat pada plot QQ normal), atau tidak berguna (sama-sama baik atau buruk dibandingkan dengan aslinya) sampai data lulus uji normalitas?
SpeedBirdNine
sumber
Saya pikir jawaban untuk judul hanya "Ya".
Thomas Cleberg
@ThomasCleberg Jawaban yang menarik. Apakah itu yang Anda katakan ketika orang bertanya kepada Anda, "Apa kabar?" :)
JohnK
Tidak, tetapi jika mereka bertanya apakah saya masih hidup. :)
Thomas Cleberg
Pertanyaan mendasar untuk ditanyakan kepada diri sendiri: "Untuk apa Anda ingin menggunakan model regresi?"
Floris

Jawaban:

32

Apa yang terjadi jika residunya tidak bersifat homoseksual? Jika residu menunjukkan pola meningkat atau menurun pada Residual vs Fitted plot.

Jika istilah kesalahan bukan merupakan homoscedastik (kami menggunakan residu sebagai proksi untuk istilah kesalahan yang tidak dapat diobservasi), estimator OLS masih konsisten dan tidak bias tetapi tidak lagi paling efisien di kelas estimator linier. Sekarang adalah penaksir GLS yang menikmati properti ini.

Apa yang terjadi jika residu tidak terdistribusi secara normal, dan gagal dalam tes Shapiro-Wilk? Uji normalitas Shapiro-Wilk adalah tes yang sangat ketat, dan kadang-kadang bahkan jika plot Normal-QQ terlihat agak masuk akal, data gagal dalam pengujian.

Normalitas tidak diperlukan oleh teorema Gauss-Markov. Estimator OLS masih BIRU tetapi tanpa normalitas Anda akan mengalami kesulitan melakukan inferensi, yaitu pengujian hipotesis dan interval kepercayaan, setidaknya untuk ukuran sampel terbatas. Namun, masih ada bootstrap.

Secara asimptot, ini bukan masalah karena penaksir OLS memiliki distribusi normal yang terbatas dalam kondisi keteraturan yang ringan.

Apa yang terjadi jika satu atau lebih prediktor tidak terdistribusi secara normal, tidak terlihat benar pada plot Normal-QQ atau jika data gagal dalam tes Shapiro-Wilk?

Sejauh yang saya tahu prediktor dianggap tetap atau regresi tergantung pada mereka. Ini membatasi efek non-normalitas.

Apa yang tidak berarti normalitas untuk model yang cocok dengan nilai R-Squared. Apakah itu menjadi kurang dapat diandalkan, atau sama sekali tidak berguna?

R-squared adalah proporsi varian yang dijelaskan oleh model. Itu tidak memerlukan asumsi normalitas dan itu adalah ukuran goodness of fit terlepas. Jika Anda ingin menggunakannya untuk uji F parsial, itu adalah cerita lain.

Sejauh mana, penyimpangan itu dapat diterima, atau apakah bisa diterima sama sekali?

Maksud Anda penyimpangan dari normalitas, bukan? Ini benar-benar tergantung pada tujuan Anda karena seperti yang saya katakan, kesimpulan menjadi sulit tanpa adanya normalitas tetapi bukan tidak mungkin (bootstrap!).

Ketika menerapkan transformasi pada data untuk memenuhi kriteria normalitas, apakah model menjadi lebih baik jika data lebih normal (nilai-P lebih tinggi pada uji Shapiro-Wilk, lebih baik dilihat pada plot QQ normal), atau tidak berguna (sama-sama baik atau buruk dibandingkan dengan aslinya) sampai data lulus uji normalitas?

Singkatnya, jika Anda memiliki semua asumsi Gauss-Markov plus normalitas maka estimator OLS adalah Best Unlimited (BUE), yaitu yang paling efisien di semua kelas estimator - Cramer-Rao Lower Bound diperoleh. Ini tentu saja diinginkan tetapi itu bukan akhir dunia jika itu tidak terjadi. Komentar di atas berlaku.

Mengenai transformasi, ingatlah bahwa sementara distribusi respons mungkin dibawa mendekati normalitas, interpretasi mungkin tidak langsung setelahnya.

Ini hanya beberapa jawaban singkat untuk pertanyaan Anda. Anda tampaknya sangat peduli dengan implikasi non-normalitas. Secara keseluruhan, saya akan mengatakan bahwa itu tidak separah yang orang (telah dibuat untuk?) Percaya dan ada solusi. Dua referensi yang saya sertakan adalah titik awal yang baik untuk membaca lebih lanjut, yang pertama bersifat teoritis.

Referensi :

Hayashi, Fumio. : "Ekonometrika.", Princeton University Press, 2000

Kutner, Michael H., et al. "Terapan model statistik linier.", McGraw-Hill Irwin, 2005.

JohnK
sumber
YXsayaβsaya
2
y
βsayaβsayaYY1,...,Yn
@DeltaIV Apa yang Anda maksud dengan "model ideal"? Itu adalah model sejati yang linier dalam parameter. Namun itu tidak membatasi kita dalam mempertimbangkan sebagai penduga hanya fungsi linear dari respons. GM menyatakan bahwa jika kita membatasi perhatian kita pada fungsi linear dari respons, maka OLS menjadi BIRU di bawah beberapa asumsi tambahan. Sekarang, jika kita mengasumsikan normal juga maka tidak peduli apa fungsi dari respons yang Anda pertimbangkan , Anda tidak bisa melakukan lebih baik daripada OLS, asalkan tentu saja bahwa estimatornya tidak bias.
JohnK
Ysayaβsaya