Apa arti residu normal dan apa artinya ini tentang data saya?

13

Pertanyaan mendasar:

Apa yang dimaksud dengan distribusi residu normal dari regresi linier? Dalam hal, bagaimana hal ini mencerminkan data asli saya dari regresi?

Aku benar-benar bingung, terima kasih kawan

smar
sumber

Jawaban:

5

Regresi linier sebenarnya memodelkan nilai-nilai yang diharapkan bersyarat dari hasil Anda. Itu berarti: jika Anda mengetahui nilai sebenarnya dari parameter regresi (katakan dan β 1 ), berikan nilai prediktor Anda X, isilah dengan persamaan E [ Y | X ] = β 0 + β 1β0β1 akan memiliki Anda menghitung nilai yang diharapkan untuk Y atas semua (mungkin) pengamatan yang memiliki nilai ini diberikan untuk X .

E[Y|X]=β0+β1X
YX

Namun: Anda tidak benar-benar mengharapkan nilai tunggal untuk nilai X yang diberikan persis sama dengan rata-rata (bersyarat). Bukan karena model Anda salah, tetapi karena ada beberapa efek yang belum Anda pertanggungjawabkan (mis. Mengukur kesalahan). Jadi iniYXnilai-nilai Yuntuk nilai X yang diberikanakan berfluktuasi di sekitar nilai rata-rata (yaitu secara geometris: sekitar titik garis regresi untuk X itu ).YXX

Asumsi normalitas, sekarang, mengatakan bahwa perbedaan antara dan pencocokan E [ Y | X ] mengikuti distribusi normal dengan rata-rata nol. Ini berarti, jika Anda memiliki nilai X , maka Anda dapat mencicipi nilai Y dengan terlebih dahulu menghitung β 0 + β 1 X (yaitu lagi E [ Y | X ] , titik pada garis regresi), pengambilan sampel berikutnya ϵ dari normal distribusi dan menambahkannya: YE[Y|X]XYβ0+β1XE[Y|X]ϵ

Y=E[Y|X]+ϵ

Singkatnya: distribusi normal ini mewakili variabilitas dalam hasil Anda di atas variabilitas yang dijelaskan oleh model.

Catatan: di sebagian besar kumpulan data, Anda tidak memiliki banyak nilai Y untuk X yang diberikan(kecuali set prediktor Anda adalah kategoris), tetapi normalitas ini berlaku untuk seluruh populasi, bukan hanya pengamatan dalam dataset Anda.YX

Catatan: Saya telah melakukan penalaran untuk regresi linier dengan satu prediktor, tetapi hal yang sama berlaku untuk lebih: cukup ganti "baris" dengan "hyperplane" di atas.

Nick Sabbe
sumber
Ini penjelasan yang bagus! Namun satu pertanyaan: e yang didistribusikan secara normal berarti Anda berasumsi bahwa nilai yang paling mungkin untuk e adalah antara -1 dan +1 (setelah mereka distandarisasi)? Jadi pada dasarnya Anda menggunakan distribusi normal alih-alih, katakanlah, distribusi poisson, karena distribusi normal memodelkan lebih baik bagaimana nilai-nilai ini berperilaku dalam kehidupan nyata?
user3813234
1

Itu bisa sangat berarti atau tidak ada artinya. Jika Anda cocok dengan model untuk mendapatkan R-Squared tertinggi, itu bisa berarti Anda bodoh. Jika Anda cocok dengan model untuk menjadi pelit dalam hal variabel diperlukan dan dibutuhkan dan peduli untuk mengidentifikasi outlier maka Anda telah melakukan pekerjaan dengan baik. Lihatlah di sini untuk informasi lebih lanjut tentang ini http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175

Tom Reilly
sumber
0

Normalitas residual adalah asumsi menjalankan model linier. Jadi, jika residual Anda normal, itu berarti asumsi Anda valid dan inferensi model (interval kepercayaan, prediksi model) juga harus valid. Sesederhana itu!

wcampbell
sumber
Asumsi normalitas adalah tentang kesalahan yang tidak dapat diobservasi (karenanya perlu asumsi), bukan tentang residu yang dapat diamati.
DL Dahly
2
Ya, tetapi Anda menggunakan residu untuk menguji asumsi Anda tentang kesalahan yang tidak dapat diobservasi.
wcampbell
 to