Plot residual: mengapa plot versus nilai pas, tidak diamati nilai ?

Dalam konteks regresi OLS, saya memahami bahwa plot residual (vs nilai pas) secara konvensional dipandang untuk menguji varians konstan dan menilai spesifikasi model. Mengapa residu diplot terhadap fit, dan bukan nilai ? Apa perbedaan informasinya dengan kedua plot ini? $Y$

Saya sedang mengerjakan model yang menghasilkan plot sisa berikut:

masukkan deskripsi gambar di sini

Jadi plot vs nilai yang dipasang terlihat bagus dengan cepat, tetapi plot kedua melawan nilai memiliki pola. Saya bertanya-tanya mengapa pola yang diucapkan seperti itu tidak juga terwujud dalam plot residual vs fit .... $Y$

Saya tidak mencari bantuan dalam mendiagnosis masalah dengan model, tetapi hanya mencoba memahami perbedaan (umumnya) antara (1) plot sisa vs cocok & (2) plot sisa vs $Y$

Untuk apa nilainya, saya yakin pola kesalahan pada grafik kedua adalah karena variabel yang dihilangkan yang mempengaruhi DV. Saat ini saya sedang berupaya mendapatkan data itu, yang saya harapkan akan membantu keseluruhan kesesuaian dan spesifikasi. Saya bekerja dengan data real estat: DV = Harga Jual. IVs: Sq.ft rumah, # ruang garasi, tahun dibangun, tahun dibangun . $^2$

regression residuals Mac
sumber

Saya telah mengambil kebebasan untuk mengubah judul agar sesuai dengan niat Anda sedikit lebih dekat. Bahkan di antara para ekonom (Anda mungkin salah satunya) "IV" memiliki arti lain dari variabel instrumental, meskipun tidak ada ambiguitas dalam kasus ini. Untuk komunikasi yang lebih baik di beberapa ilmu statistik, beberapa dari kita tidak menyarankan singkatan yang digunakan secara lokal seperti DV (yang bagi sebagian orang masih berarti Deo volente ) dan IV yang mendukung istilah-istilah yang menggugah seperti respon atau hasil di satu sisi dan prediktor atau kovariat pada lain. Saya tahu ini adalah detail dalam pertanyaan Anda, tetapi sudah dijawab dengan baik.

Nick Cox

Jawaban:

Dengan konstruksi istilah kesalahan dalam model OLS tidak berkorelasi dengan nilai-nilai yang diamati dari kovariat X. Ini akan selalu benar untuk data yang diamati bahkan jika model menghasilkan estimasi bias yang tidak mencerminkan nilai sebenarnya dari suatu parameter karena asumsi model dilanggar (seperti masalah variabel yang dihilangkan atau masalah dengan kausalitas terbalik). Nilai-nilai yang diprediksi sepenuhnya merupakan fungsi dari kovariat ini sehingga mereka juga tidak berkorelasi dengan istilah kesalahan. Jadi, ketika Anda memplot residual terhadap nilai prediksi, mereka harus selalu terlihat acak karena memang tidak berkorelasi dengan konstruksi estimator. Sebaliknya, sangat mungkin (dan memang mungkin) istilah kesalahan model untuk dikorelasikan dengan Y dalam praktiknya. Sebagai contoh, dengan variabel X dikotomis, semakin jauh Y sejati adalah dari keduanyaE(Y | X = 1)atau E(Y | X = 0)semakin besar residualnya. Berikut adalah intuisi yang sama dengan data yang disimulasikan dalam R di mana kami tahu modelnya tidak bias karena kami mengontrol proses pembuatan data:

rm(list=ls())
set.seed(21391209)

trueSd <- 10
trueA <- 5
trueB <- as.matrix(c(3,5,-1,0))
sampleSize <- 100

# create independent x-values
x1 <- rnorm(n=sampleSize, mean = 0, sd = 4)
x2 <-  rnorm(n=sampleSize, mean = 5, sd = 10)
x3 <- 3 + x1 * 4 + x2 * 2 + rnorm(n=sampleSize, mean = 0, sd = 10)
x4 <- -50 + x1 * 7 + x2 * .5 + x3 * 2  + rnorm(n=sampleSize, mean = 0, sd = 20)
X = as.matrix(cbind(x1,x2,x3,x4))


# create dependent values according to a + bx + N(0,sd)
Y <-  trueA +  X %*%  trueB  +rnorm(n=sampleSize,mean=0,sd=trueSd)


df = as.data.frame(cbind(Y,X))
colnames(df) <- c("y", "x1", "x2", "x3", "x4")
ols = lm(y~x1+x2+x3+x4, data = df)
y_hat = predict(ols, df)
error = Y - y_hat
cor(y_hat, error) #Zero
cor(Y, error) #Not Zero

Kami mendapatkan hasil yang sama dari korelasi nol dengan model yang bias, misalnya jika kita hilangkan x1.

ols2 = lm(y~x2+x3+x4, data = df)
y_hat2 = predict(ols2, df)
error2 = Y - y_hat2
cor(y_hat2, error2) #Still zero
cor(Y, error2) #Not Zero

Michael
sumber

Bermanfaat, tetapi kalimat pertama bisa ditulis ulang untuk kejelasan. "Konstruksi" menghasilkan residu; istilah kesalahan dianggap ada di luar sana dan ada sebelum perhitungan. Demikian pula, saya akan mengatakan bahwa itu adalah estimasi yang dibangun, bukan estimator, yang merupakan metode yang digunakan untuk membangunnya.

Nick Cox

Tetapi mengapa kita bahkan melihat grafik residual (vs cocok)? Apa tujuan diagnostik yang dimiliki plot itu? Saya baru di situs ini. Apakah saya harus memberi tag pada Michael atau apakah dia mendapatkan komentar ini secara otomatis? Komentar saya juga berlaku untuk jawaban @Glen_b di bawah ini. Kedua jawaban itu membantu pemahaman saya. Terima kasih.

Mac

... karena mereka dapat mengungkapkan struktur lain. Kurangnya korelasi antara residual dan fit tidak berarti bahwa hal-hal lain tidak dapat terjadi juga. Jika Anda yakin model Anda sempurna maka Anda tidak akan percaya itu mungkin terjadi .... Dalam praktiknya Anda perlu memeriksa jenis struktur lainnya.

Nick Cox

@ Mac, saya akan jujur dan mengatakan bahwa saya tidak pernah melihat plot ini. Jika Anda mencoba membuat kesimpulan kausal maka Anda harus memikirkan masalah variabel yang dihilangkan dan membalikkan masalah kausalitas secara konseptual. Salah satu masalah bisa terjadi dan Anda tidak akan bisa melihatnya dari plot ini karena mereka adalah masalah kesetaraan pengamatan. Jika yang Anda pedulikan hanyalah prediksi, maka Anda harus memikirkan dan menguji out-of-sample seberapa baik prediksi model Anda di luar sampel (jika tidak itu bukan prediksi).

Michael

@NickCox Ya, maksud saya istilah kesalahan seperti yang diperkirakan oleh model dan bukan nilai sebenarnya dari parameter.

Michael

Dua fakta yang saya anggap Anda senang dengan saya hanya menyatakan:

$y_i = \hat{y}_i+\hat{e}_i$

$\text{Cov}(\hat{y}_i,\hat{e}_i)=0$

Kemudian:

$\text{Cov}(y_i,\hat{e}_i)=\text{Cov}(\hat{y}_i+\hat{e}_i,\hat{e}_i)$

$\qquad=\text{Cov}(\hat{y}_i,\hat{e}_i) +\text{Cov}(\hat{e}_i,\hat{e}_i)$

$\qquad=0 +\sigma^2_e$

$\qquad=\sigma^2_e$

Jadi, sementara nilai pas tidak berkorelasi dengan residu, pengamatannya adalah .

Akibatnya, ini karena pengamatan dan residu terkait dengan istilah kesalahan.

Ini biasanya membuatnya agak sulit untuk menggunakan plot sisa untuk tujuan diagnostik.

Glen_b -Reinstate Monica
sumber