Misalkan kita menjalankan regresi linier sederhana , menyelamatkan residu dan menggambar histogram distribusi residu. Jika kita mendapatkan sesuatu yang terlihat seperti distribusi yang akrab, dapatkah kita berasumsi bahwa istilah kesalahan kita memiliki distribusi ini? Katakanlah, jika kami menemukan bahwa residu menyerupai distribusi normal, apakah masuk akal untuk menganggap normalitas istilah kesalahan dalam populasi? Saya pikir itu masuk akal, tetapi bagaimana bisa dibenarkan?
r
regression
residuals
marcin63
sumber
sumber
Jawaban:
Itu semua tergantung pada bagaimana Anda memperkirakan parameter . Biasanya, penduga adalah linear, yang menyiratkan residual adalah fungsi linear dari data. Ketika kesalahan memiliki distribusi normal, maka begitu juga data, mana begitu residual u i ( i indeks kasus data, tentu saja).ui u^i i
Dapat dibayangkan (dan secara logis memungkinkan) bahwa ketika residu tampaknya memiliki sekitar distribusi Normal (univariat), bahwa ini muncul dari distribusi kesalahan yang tidak normal . Namun, dengan teknik estimasi kuadrat terkecil (atau kemungkinan maksimum), transformasi linier untuk menghitung residu adalah "ringan" dalam arti bahwa fungsi karakteristik dari distribusi residual (multivariat) tidak dapat berbeda jauh dari cf kesalahan. .
Dalam prakteknya, kita tidak pernah perlu bahwa kesalahan akan persis didistribusikan Biasanya, jadi ini adalah masalah penting. Impor yang jauh lebih besar untuk kesalahan adalah bahwa (1) harapan mereka semua harus mendekati nol; (2) korelasinya harus rendah; dan (3) harus ada sejumlah kecil nilai-nilai terpencil yang dapat diterima. Untuk memeriksa ini, kami menerapkan berbagai tes good-of-fit, tes korelasi, dan tes outlier (masing-masing) untuk residu. Pemodelan regresi yang hati-hati selalu termasuk menjalankan tes seperti itu (yang mencakup berbagai visualisasi grafis dari residu, seperti dipasok secara otomatis oleh
plot
metode R ketika diterapkan kelm
kelas).Cara lain untuk menjawab pertanyaan ini adalah dengan mensimulasikan dari model yang dihipotesiskan. Berikut adalah beberapa (minimal, satu kali)
R
kode untuk melakukan pekerjaan:Untuk kasus n = 32, plot probabilitas overlay ini dari 99 set residu menunjukkan mereka cenderung dekat dengan distribusi kesalahan (yang merupakan standar normal), karena mereka secara seragam bersatu dengan garis referensi :y=x
Untuk kasus n = 6, kemiringan median yang lebih kecil dalam plot probabilitas mengisyaratkan bahwa residu memiliki varians yang sedikit lebih kecil daripada kesalahan, tetapi secara keseluruhan mereka cenderung terdistribusi secara normal, karena sebagian besar dari mereka melacak garis referensi dengan cukup baik (mengingat nilai kecil ):n
sumber
rexp(n)
di tempatrnorm(n)
saat menghasilkan data Anda. Distribusi residu akan membuat WAY lebih dekat ke normal daripada yang Anda kira.sumber
Saya berpendapat bahwa Anda tidak bisa, karena model yang baru saja Anda muat tidak valid jika asumsi normal tentang kesalahan tidak berlaku. (dalam arti bahwa bentuk distribusi jelas tidak normal seperti Cauchy dll.)
Pendekatan biasa alih-alih mengasumsikan kesalahan terdistribusi Po Poisson, adalah dengan melakukan beberapa bentuk transformasi data seperti log y, atau 1 / y untuk menormalkan residu. (juga model yang sebenarnya mungkin tidak linier yang akan membuat residu yang diplot tampak terdistribusi secara aneh meskipun sebenarnya normal)
Anda mengasumsikan normalitas kesalahan begitu Anda telah cocok dengan regresi OLS. Apakah Anda harus memberikan argumen untuk klaim itu, tergantung pada jenis dan tingkat pekerjaan Anda. (Sering berguna untuk melihat praktik apa yang diterima di lapangan)
Sekarang, jika residu sebenarnya tampak terdistribusi secara normal, Anda dapat mengelus diri Anda sendiri, karena Anda dapat menggunakannya sebagai bukti empiris dari asumsi Anda sebelumnya. :)
sumber
Ya itu masuk akal. Sisa adalah kesalahan. Anda juga dapat melihat plot QQ normal.
sumber