Dalam konteks regresi OLS, saya memahami bahwa plot residual (vs nilai pas) secara konvensional dipandang untuk menguji varians konstan dan menilai spesifikasi model. Mengapa residu diplot terhadap fit, dan bukan nilai ? Apa perbedaan informasinya dengan kedua plot ini?
Saya sedang mengerjakan model yang menghasilkan plot sisa berikut:
Jadi plot vs nilai yang dipasang terlihat bagus dengan cepat, tetapi plot kedua melawan nilai memiliki pola. Saya bertanya-tanya mengapa pola yang diucapkan seperti itu tidak juga terwujud dalam plot residual vs fit ....
Saya tidak mencari bantuan dalam mendiagnosis masalah dengan model, tetapi hanya mencoba memahami perbedaan (umumnya) antara (1) plot sisa vs cocok & (2) plot sisa vs
Untuk apa nilainya, saya yakin pola kesalahan pada grafik kedua adalah karena variabel yang dihilangkan yang mempengaruhi DV. Saat ini saya sedang berupaya mendapatkan data itu, yang saya harapkan akan membantu keseluruhan kesesuaian dan spesifikasi. Saya bekerja dengan data real estat: DV = Harga Jual. IVs: Sq.ft rumah, # ruang garasi, tahun dibangun, tahun dibangun .
Jawaban:
Dengan konstruksi istilah kesalahan dalam model OLS tidak berkorelasi dengan nilai-nilai yang diamati dari kovariat X. Ini akan selalu benar untuk data yang diamati bahkan jika model menghasilkan estimasi bias yang tidak mencerminkan nilai sebenarnya dari suatu parameter karena asumsi model dilanggar (seperti masalah variabel yang dihilangkan atau masalah dengan kausalitas terbalik). Nilai-nilai yang diprediksi sepenuhnya merupakan fungsi dari kovariat ini sehingga mereka juga tidak berkorelasi dengan istilah kesalahan. Jadi, ketika Anda memplot residual terhadap nilai prediksi, mereka harus selalu terlihat acak karena memang tidak berkorelasi dengan konstruksi estimator. Sebaliknya, sangat mungkin (dan memang mungkin) istilah kesalahan model untuk dikorelasikan dengan Y dalam praktiknya. Sebagai contoh, dengan variabel X dikotomis, semakin jauh Y sejati adalah dari keduanya
E(Y | X = 1)
atauE(Y | X = 0)
semakin besar residualnya. Berikut adalah intuisi yang sama dengan data yang disimulasikan dalam R di mana kami tahu modelnya tidak bias karena kami mengontrol proses pembuatan data:Kami mendapatkan hasil yang sama dari korelasi nol dengan model yang bias, misalnya jika kita hilangkan
x1.
sumber
Dua fakta yang saya anggap Anda senang dengan saya hanya menyatakan:
Kemudian:
Jadi, sementara nilai pas tidak berkorelasi dengan residu, pengamatannya adalah .
Akibatnya, ini karena pengamatan dan residu terkait dengan istilah kesalahan.
Ini biasanya membuatnya agak sulit untuk menggunakan plot sisa untuk tujuan diagnostik.
sumber