Mengapa normalitas residu "hampir tidak penting sama sekali" untuk tujuan memperkirakan garis regresi?

21

Gelman and Hill (2006) menulis di halaman 46 bahwa:

Asumsi regresi yang umumnya paling tidak penting adalah bahwa kesalahan didistribusikan secara normal. Bahkan, untuk tujuan memperkirakan garis regresi (dibandingkan dengan memprediksi titik data individual), asumsi normalitas hampir tidak penting sama sekali. Jadi, berbeda dengan banyak buku teks regresi, kami tidak merekomendasikan diagnostik normalitas residu regresi.

Gelman dan Hill tampaknya tidak menjelaskan hal ini lebih jauh.

Apakah Gelman dan Hill benar? Jika demikian, maka:

  1. Kenapa "nyaris tidak penting sama sekali"? Mengapa itu tidak penting atau sama sekali tidak relevan?

  2. Mengapa normalitas residu penting ketika memprediksi titik data individual?

Gelman, A., & Hill, J. (2006). Analisis data menggunakan regresi dan model bertingkat / hierarkis. Cambridge University Press

user1205901 - Pasang kembali Monica
sumber

Jawaban:

21

Untuk estimasi normalitas bukanlah asumsi, tetapi pertimbangan utama adalah efisiensi; dalam banyak kasus penaksir linier yang baik akan baik-baik saja dan dalam hal itu (oleh Gauss-Markov) estimasi LS akan menjadi yang terbaik dari hal-hal itu-yang-akan-baik-baik saja. (Jika ekor Anda cukup berat, atau sangat ringan, mungkin masuk akal untuk mempertimbangkan hal lain)

Dalam kasus tes dan CI, sementara normalitas diasumsikan, biasanya tidak semua yang kritis (sekali lagi, selama ekor tidak benar-benar berat atau ringan, atau mungkin satu dari masing-masing), dalam hal itu, setidaknya dalam tidak-sangat- sampel kecil tes dan CI tipikal cenderung mendekati sifat nominalnya (tidak terlalu jauh dari tingkat signifikansi atau cakupan yang diklaim) dan berkinerja baik (daya yang wajar untuk situasi tipikal atau CI yang tidak terlalu luas daripada alternatif) - saat Anda bergerak lebih jauh dari kasus daya normal dapat lebih dari masalah, dan dalam kasus itu sampel besar umumnya tidak akan meningkatkan efisiensi relatif, jadi di mana ukuran efek sedemikian rupa sehingga daya lumayan dalam tes dengan daya yang relatif baik, mungkin sangat buruk untuk tes yang dianggap normal.

Kecenderungan untuk memiliki dekat dengan sifat nominal untuk CI dan tingkat signifikansi dalam tes adalah karena beberapa faktor yang beroperasi bersama (salah satunya adalah kecenderungan kombinasi linear variabel untuk mendekati distribusi normal selama ada banyak nilai yang terlibat dan tidak ada dari mereka yang menyumbang sebagian besar dari total varians).

Namun, dalam kasus interval prediksi berdasarkan asumsi normal, normalitas relatif lebih kritis, karena lebar interval sangat bergantung pada distribusi nilai tunggal . Namun, bahkan di sana, untuk ukuran interval yang paling umum (interval 95%), fakta bahwa banyak distribusi unimodal sangat dekat dengan 95% dari distribusinya dalam waktu sekitar 2sds dari rata-rata cenderung menghasilkan kinerja yang wajar dari interval prediksi normal bahkan ketika distribusinya tidak normal. [Ini tidak terbawa dengan sangat baik ke interval yang lebih sempit atau lebih luas - katakanlah interval 50% atau interval 99,9% -.]

Glen_b -Reinstate Monica
sumber
"Kecenderungan kombinasi linear variabel memiliki distribusi mendekati normal." - Saya kira ini tidak terhubung ke Teorema Limit Pusat. Apakah itu? Jika tidak, "teorema" apakah yang dimaksud dengan pernyataan ini?
Heisenberg
1
@ Heisenberg Ini memiliki koneksi ke versi tertentu dari CLT, ya. (lihat versi Lyapunov dan Lindeberg di sini ). Jika Anda menginginkan teorema untuk mengajukan sampel terbatas, kami sedang melihat versi teorema Berry-Esseen. Tetapi pernyataan itu dimaksudkan lebih sebagai pengamatan (karenanya penggunaan kata "kecenderungan") daripada teorema.
Glen_b -Reinstate Monica
7

2: Ketika memprediksi titik data individual, interval kepercayaan di sekitar prediksi itu mengasumsikan bahwa residual terdistribusi secara normal.

Ini tidak jauh berbeda dari asumsi umum tentang interval kepercayaan - untuk menjadi valid, kita perlu memahami distribusi, dan asumsi yang paling umum adalah normalitas. Sebagai contoh, interval kepercayaan standar di sekitar rata-rata berfungsi karena distribusi sampel berarti mendekati normal, sehingga kita dapat menggunakan distribusi az atau t

zbicyclist
sumber