Ada beberapa utas di situs ini yang membahas cara menentukan apakah residu OLS terdistribusi secara normal tanpa gejala . Cara lain untuk mengevaluasi normalitas residual dengan kode R disediakan dalam jawaban yang sangat baik ini . Ini adalah diskusi lain tentang perbedaan praktis antara residu terstandarisasi dan yang diamati.
Tetapi katakanlah residu pasti tidak terdistribusi normal, seperti dalam contoh ini . Di sini kita memiliki beberapa ribu pengamatan dan jelas kita harus menolak asumsi residu yang terdistribusi normal. Salah satu cara untuk mengatasi masalah adalah dengan menggunakan beberapa bentuk estimator yang kuat seperti yang dijelaskan dalam jawaban. Namun saya tidak terbatas pada OLS dan pada kenyataannya saya ingin memahami manfaat metodologi GLM lain atau non-linear.
Apa cara paling efisien untuk memodelkan data yang melanggar asumsi normal residual OLS? Atau setidaknya apa yang seharusnya menjadi langkah pertama untuk mengembangkan metodologi analisis regresi yang sehat?
sumber
Jawaban:
Estimasi kuadrat terkecil biasa masih merupakan estimator yang wajar dalam menghadapi kesalahan tidak normal. Secara khusus, Teorema Gauss-Markov menyatakan bahwa estimasi kuadrat terkecil biasa adalah estimator linier tidak bias terbaik (BLUE) dari koefisien regresi ('Terbaik' artinya optimal dalam hal meminimalkan kesalahan kuadrat rata-rata ) selama kesalahan
(1) memiliki mean nol
(2) tidak berkorelasi
(3) memiliki varian konstan
Perhatikan tidak ada kondisi normal di sini (atau bahkan kondisi apa pun yang kesalahannya adalah IID ).
Kondisi normal berperan ketika Anda mencoba untuk mendapatkan interval kepercayaan dan / atau nilai- . Seperti @MichaelChernick menyebutkan (+1, btw) Anda dapat menggunakan inferensi kuat ketika kesalahan tidak normal selama keberangkatan dari normal dapat ditangani oleh metode - misalnya, (seperti yang kita bahas dalam utas ini ) Huber -estimator dapat memberikan inferensi yang kuat ketika distribusi kesalahan yang sebenarnya adalah campuran antara normal dan distribusi ekor panjang (yang terlihat seperti contoh Anda) tetapi mungkin tidak membantu untuk keberangkatan lain dari normalitas. Satu kemungkinan menarik yang disinggung Michael adalah bootstrap untuk mendapatkan interval kepercayaan untuk perkiraan OLS dan melihat bagaimana ini dibandingkan dengan inferensi berbasis Huber.p M
Sunting: Saya sering mendengar dikatakan bahwa Anda dapat mengandalkan Teorema Limit Pusat untuk mengatasi kesalahan yang tidak normal - ini tidak selalu benar (Saya tidak hanya berbicara tentang contoh tandingan di mana teorema gagal). Dalam contoh data nyata yang dirujuk OP, kami memiliki ukuran sampel yang besar tetapi dapat melihat bukti distribusi kesalahan berekor panjang - dalam situasi di mana Anda memiliki kesalahan berekor panjang, Anda tidak dapat selalu mengandalkan pada Teorema Batas Pusat untuk memberikan Anda kira-kira kesimpulan yang tidak bias untuk ukuran sampel terbatas yang realistis. Misalnya, jika kesalahan mengikuti distribusi- dengan kebebasan derajat (yang tidak jelas lebih banyakt 2.01 berekor panjang daripada kesalahan yang terlihat dalam data OP), estimasi koefisien terdistribusi secara asimptotik, tetapi butuh lebih lama untuk "menendang" daripada yang dilakukannya untuk distribusi berekor pendek lainnya.
Di bawah ini, saya menunjukkan dengan simulasi kasaryi=1+2xi+εi εi∼t2.01 β^1 n=4000
R
ketika , di mana , distribusi sampling dari masih cukup panjang meskipun ukuran sampel :sumber
Saya pikir Anda ingin melihat semua properti residu.
Jika hanya 1 dan itu karena ekor besar atau miring karena satu ekor yang berat, regresi yang kuat mungkin merupakan pendekatan yang baik atau mungkin transformasi ke normalitas. Jika ini adalah varian non-konstan, cobalah transformasi penstabilan varians atau upaya memodelkan fungsi varians. Jika hanya 3 yang menyarankan bentuk model yang berbeda yang melibatkan kovariat itu. Apapun masalahnya, bootstrap vektor atau reidual selalu menjadi pilihan.
sumber
rms
paket R. Tetapi seperti yang Anda sarankan, menemukan transformasi yang meningkatkan stabilitas varians dan kadang-kadang meningkatkan normalitas residu sering memiliki beberapa keuntungan, bahkan jika kita bootstrap. Estimasi kuadrat terkecil menggunakan transformasi "salah" bisa sangat tidak efisien dan menyebabkan kesalahan rata-rata absolut dan median absolut dalam prediksi. Saya juga suka menggunakan model regresi semiparametrik.Pengalaman saya sepenuhnya sesuai dengan Michael Chernick. Tidak hanya kadang-kadang menerapkan transformasi data membuat kesalahan pemodelan terdistribusi secara normal, itu juga dapat memperbaiki heteroskedastisitas.
Maaf, tetapi menyarankan sebaliknya seperti mengumpulkan jumlah data yang gila, atau menggunakan metode regresi yang kuat dan kurang efisien, menurut saya, salah dalam menerapkan sains / seni ini.
sumber
Makro (hanya di atas) menyatakan jawaban yang benar. Hanya sedikit presisi karena saya punya pertanyaan yang sama
Kondisi normal residual berguna ketika residu juga homoskedastik. Hasilnya kemudian OLS memiliki varians terkecil antara semua estimator (linear OR non-linear).
Asumsi OLS yang diperluas:
jika 1-5 diverifikasi, maka OLS memiliki varians terkecil antara semua estimator (linier ATAU non-linear) .
jika hanya 1-4 yang diverifikasi, maka oleh Gauss-Markov, OLS adalah penaksir linier (hanya!) terbaik (BIRU).
Sumber: Stock and Watson, Econometrics + matakuliah saya (EPFL, Econometrics)
sumber
Untuk kondisi yang tidak normal seseorang kadang-kadang akan menggunakan regresi yang kuat , terutama menggunakan tautan ke metode .
Untuk menyajikan konteks non-normalitas, mungkin membantu untuk meninjau asumsi untuk regresi OLS linier , yaitu:
Hubungan statistik antara istilah kesalahan dan regressor memainkan peran penting dalam menentukan apakah prosedur estimasi memiliki sifat sampling yang diinginkan seperti tidak bias dan konsisten.
Pengaturan, atau distribusi probabilitas variabel prediktor x memiliki pengaruh besar pada ketepatan estimasi β. Pengambilan sampel dan desain eksperimen adalah subbidang statistik yang sangat maju yang menyediakan panduan untuk mengumpulkan data sedemikian rupa untuk mencapai perkiraan yang tepat dari β.
Seperti yang diilustrasikan oleh jawaban ini , simulasi Student's mendistribusikan kesalahan sumbu dari garis mengarah ke garis regresi OLS dengan interval kepercayaan untuk kemiringan dan mencegat peningkatan ukuran seiring dengan menurunnya derajat kebebasan ( ). Untuk , Student's- adalah distribusi Cauchy dan interval kepercayaan untuk lereng menjadi .t y df df=1 t (−∞,+∞)
Adalah sewenang-wenang untuk memanggil distribusi Cauchy sehubungan dengan residu dalam arti bahwa ketika kesalahan menghasilkan didistribusikan Cauchy, residu OLS dari garis palsu melalui data akan menjadi lebih tidak dapat diandalkan, yaitu, sampah di --- sampah keluar. Dalam kasus tersebut, seseorang dapat menggunakan regresi regresi Theil-Sen . Theil-Sen tentu lebih kuat daripada OLS untuk residu non-normal, misalnya, kesalahan Cauchy didistribusikan tidak akan menurunkan interval kepercayaan dan tidak seperti OLS juga merupakan regresi bivariat, namun dalam kasus bivariat masih bias. Regresi Passing-Bablok bisa lebih bivariat tidak memihak, tetapi tidak berlaku untuk lereng regresi negatif. Ini paling sering digunakan untuk studi perbandingan metode. Orang harus menyebutkan regresi Demingdi sini, tidak seperti regresi Theil-Sen dan Passing-Bablok, ini adalah solusi aktual untuk masalah bivariat, tetapi tidak memiliki kekokohan dari regresi lainnya. Robustness dapat ditingkatkan dengan memotong data untuk memasukkan nilai yang lebih sentral, misalnya, konsensus sampel acak (RANSAC) adalah metode berulang untuk memperkirakan parameter model matematika dari satu set data yang diamati yang berisi pencilan.
Apa itu regresi bivariat? Kurangnya pengujian untuk sifat bivariat masalah adalah penyebab paling sering untuk pengenceran regresi OLS dan telah disajikan dengan baik di tempat lain di situs ini. Konsep bias OLS dalam konteks ini tidak dikenal dengan baik, lihat misalnya Frost dan Thompson seperti yang disampaikan oleh Longford et al. (2001), yang merujuk pembaca ke metode lain, memperluas model regresi untuk mengakui variabilitas dalam variabel , sehingga tidak ada bias muncul . Dengan kata lain, regresi kasus bivariat terkadang tidak dapat diabaikan ketika kedua - danx 1 x y -nilai didistribusikan secara acak. Kebutuhan untuk regresi bivariat dapat diuji dengan memasang garis regresi OLS ke residu dari regresi OLS data. Kemudian, jika residu OLS memiliki kemiringan yang tidak nol, masalahnya adalah bivariat dan regresi OLS data akan memiliki besarnya kemiringan yang terlalu dangkal, dan intersep yang terlalu besar besarnya untuk mewakili hubungan fungsional antara dan . Dalam kasus tersebut, penaksir linier kesalahan terkecil dari nilai memang masih berasal dari regresi OLS, dan nilai R akan berada pada nilai maksimum yang mungkin, tetapi garis regresi OLS tidak akan mewakili fungsi garis aktual yang terkait yang danx y y 2 x y variabel acak. Sebagai contoh balasan, ketika, seperti yang terjadi di antara masalah lain dalam rangkaian waktu dengan nilai sama , OLS dari data mentah tidak selalu tidak sesuai, itu mungkin mewakili garis , tetapi masih tunduk pada transformasi variabel, misalnya untuk data jumlah, seseorang akan mengambil akar kuadrat dari jumlah untuk mengubah kesalahan untuk kesalahan terdistribusi Poisson ke kondisi yang lebih normal, dan seseorang masih harus memeriksa kemiringan residual yang tidak nol. x y=f(x)
sumber