Pertanyaan mendasar:
Apa yang dimaksud dengan distribusi residu normal dari regresi linier? Dalam hal, bagaimana hal ini mencerminkan data asli saya dari regresi?
Aku benar-benar bingung, terima kasih kawan
sumber
Pertanyaan mendasar:
Apa yang dimaksud dengan distribusi residu normal dari regresi linier? Dalam hal, bagaimana hal ini mencerminkan data asli saya dari regresi?
Aku benar-benar bingung, terima kasih kawan
Regresi linier sebenarnya memodelkan nilai-nilai yang diharapkan bersyarat dari hasil Anda. Itu berarti: jika Anda mengetahui nilai sebenarnya dari parameter regresi (katakan dan β 1 ), berikan nilai prediktor Anda X, isilah dengan persamaan E [ Y | X ] = β 0 + β 1 akan memiliki Anda menghitung nilai yang diharapkan untuk Y atas semua (mungkin) pengamatan yang memiliki nilai ini diberikan untuk X .
Namun: Anda tidak benar-benar mengharapkan nilai tunggal untuk nilai X yang diberikan persis sama dengan rata-rata (bersyarat). Bukan karena model Anda salah, tetapi karena ada beberapa efek yang belum Anda pertanggungjawabkan (mis. Mengukur kesalahan). Jadi ininilai-nilai Yuntuk nilai X yang diberikanakan berfluktuasi di sekitar nilai rata-rata (yaitu secara geometris: sekitar titik garis regresi untuk X itu ).
Asumsi normalitas, sekarang, mengatakan bahwa perbedaan antara dan pencocokan E [ Y | X ] mengikuti distribusi normal dengan rata-rata nol. Ini berarti, jika Anda memiliki nilai X , maka Anda dapat mencicipi nilai Y dengan terlebih dahulu menghitung β 0 + β 1 X (yaitu lagi E [ Y | X ] , titik pada garis regresi), pengambilan sampel berikutnya ϵ dari normal distribusi dan menambahkannya:
Singkatnya: distribusi normal ini mewakili variabilitas dalam hasil Anda di atas variabilitas yang dijelaskan oleh model.
Catatan: di sebagian besar kumpulan data, Anda tidak memiliki banyak nilai Y untuk X yang diberikan(kecuali set prediktor Anda adalah kategoris), tetapi normalitas ini berlaku untuk seluruh populasi, bukan hanya pengamatan dalam dataset Anda.
Catatan: Saya telah melakukan penalaran untuk regresi linier dengan satu prediktor, tetapi hal yang sama berlaku untuk lebih: cukup ganti "baris" dengan "hyperplane" di atas.
Itu bisa sangat berarti atau tidak ada artinya. Jika Anda cocok dengan model untuk mendapatkan R-Squared tertinggi, itu bisa berarti Anda bodoh. Jika Anda cocok dengan model untuk menjadi pelit dalam hal variabel diperlukan dan dibutuhkan dan peduli untuk mengidentifikasi outlier maka Anda telah melakukan pekerjaan dengan baik. Lihatlah di sini untuk informasi lebih lanjut tentang ini http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175
sumber
Normalitas residual adalah asumsi menjalankan model linier. Jadi, jika residual Anda normal, itu berarti asumsi Anda valid dan inferensi model (interval kepercayaan, prediksi model) juga harus valid. Sesederhana itu!
sumber