Apakah masuk akal untuk mempelajari plot residu sehubungan dengan variabel dependen?

11

Saya ingin tahu apakah masuk akal untuk mempelajari plot residual sehubungan dengan variabel dependen ketika saya mendapatkan regresi univariat. Jika masuk akal, apa arti korelasi yang kuat, linier, dan tumbuh antara residual (pada sumbu y) dan nilai estimasi dari variabel dependen (pada sumbu x) artinya?

masukkan deskripsi gambar di sini

regression residuals Luigi
sumber

3

Saya tidak yakin apa yang Anda maksud dengan "korelasi yang kuat, linier, tumbuh". Bisakah Anda menunjukkan plotnya? Sangat masuk akal untuk memplot residu terhadap nilai yang dipasang. Secara umum, Anda ingin tidak ada hubungan - garis horizontal datar berjalan melalui pusat. Selain itu, Anda ingin dispersi vertikal residu konstan dari sisi kiri plot Anda ke kanan.

gung - Reinstate Monica

Hai. Terima kasih atas jawaban Anda. Ini adalah plotnya: img100.imageshack.us/img100/7414/bwages.png

Luigi

Itu membingungkan. Biarkan saya memastikan saya mengerti: Anda menjalankan model regresi, lalu diplot residual vs nilai-nilai yang sesuai, dan itulah yang Anda dapatkan, apakah itu benar? Seharusnya tidak terlihat seperti itu. Bisakah Anda mengedit pertanyaan dan menempelkannya ke kode yang Anda gunakan untuk model dan plot?

gung - Reinstate Monica

Anda mengerti benar. Maaf, tapi saya tidak tahu cara mengambil kode, saya menjalankan regresi dan merencanakan residu dengan program Gretl.

Luigi

2

Awalnya saya tidak melihat komentar oleh @ mark999 ketika saya menulis jawaban saya di bawah ini. Saya pikir kecurigaannya benar, bahwa ini adalah residual vs nilai-y. Luigi, ulangi grafik Anda - jangan mencoba menafsirkannya ketika Anda mungkin salah tentang apa variabelnya.

Michael Bishop

12

Misalkan Anda memiliki regresi , di mana . Kemudian, . Semakin tinggi nilai , semakin besar residual. Sebaliknya, plot residual terhadap seharusnya tidak menunjukkan hubungan sistematis. Juga, nilai prediksi harus kira-kira --- sama untuk setiap pengamatan. Jika semua nilai yang diprediksi kira-kira sama, mereka harus tidak berkorelasi dengan kesalahan. $y_i = \beta_0 + \beta_1 x_i + \epsilon_i$ $\beta_1 \approx 0$ $y_i - \beta_0 \approx \epsilon_i$ $y$ $x$ $\hat{y}_i$ $\hat{\beta}_0$

Apa yang plot katakan kepada saya adalah bahwa dan pada dasarnya tidak berhubungan (tentu saja, ada cara yang lebih baik untuk menunjukkan ini). Beri tahu kami jika koefisien Anda tidak mendekati 0. $x$ $y$ $\hat{\beta}_1$

Sebagai diagnosa yang lebih baik, gunakan plot residual terhadap upah yang diprediksi atau terhadap nilai . Anda seharusnya tidak mengamati pola yang dapat dibedakan dalam plot ini. $x$

Jika Anda ingin sedikit demonstrasi R, ini dia:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

Charlie
sumber

Ini tidak berarti bahwa hanya karena

, mungkin saja model memerlukan lebih banyak variabel penjelas, seperti istilah polinomial.

β_{1} = 0

$\beta_1=0$

Biostat

5

Dengan asumsi model yang diperkirakan ditentukan dengan benar ...

Mari masing menunjukkan , matriks adalah matriks proyeksi, sehingga dan . $P_X=X(X'X)^{-1}X'$ $P_X$ $P_X^2=P_X$ $P_X'=P_X$

. $Cov(\hat{Y},\hat{e})=Cov(P_XY,(I-P_X)Y)=P_XCov(Y,Y)(I-P_X)'=\sigma^2P_X(I-P_X)=0$

Jadi sebar-plot residu terhadap prediksi variabel dependen seharusnya tidak menunjukkan korelasi

Tapi!

$Cov(Y,\hat{e})=Cov(Y,(I-P_X)Y)=Cov(Y,Y)(I-P_X)'=\sigma^2(I-P_X)$

$\sigma^2(I-P_X)$

Sejauh yang saya tahu Gretl menghasilkan secara default grafik residual terhadap variabel dependen asli (bukan yang diprediksi!).

Roah
sumber

Saya menghargai kemungkinan yang berbeda. Di sinilah pengetahuan Gretl sangat membantu. Namun saya bertanya-tanya, seberapa masuk akal bahwa ini adalah jawaban yang sebenarnya. Menggunakan data simulasi saya, saya mengkorelasikan dan merencanakan residu vs dv asli; r = .22 dan plotnya sangat mirip dengan plot ke-3 saya, bukan plot pertanyaan. Tentu saja, saya mengumpulkan data itu untuk memeriksa masuk akalnya cerita saya - mereka mungkin tidak cocok untuk memeriksa milik Anda.

gung - Reinstate Monica

@ung, apa maksudmu Anda menggunakan data simulasi Anda?

Michael Bishop

@MichaelBishop jika Anda melihat jawaban saya, Anda melihat bahwa saya mensimulasikan data untuk mencoba cerita saya untuk melihat apakah itu akan terlihat seperti plot yang diposting. Kode dan plot saya disajikan. Karena saya menentukan benih, ia dapat direproduksi oleh siapa pun yang memiliki akses ke R.

gung - Reinstate Monica

4

Apakah mungkin Anda bingung dengan nilai pas / prediksi dengan nilai aktual?

Seperti yang dikatakan @gung dan @biostat, Anda berharap tidak ada hubungan antara nilai yang dipasang dan residu. Di sisi lain, menemukan hubungan linear antara nilai aktual dari variabel dependen / hasil dan residual diharapkan dan tidak terlalu informatif.

Ditambahkan untuk memperjelas kalimat sebelumnya: Tidak sembarang hubungan linier antara residual dan nilai aktual dari hasil yang diharapkan ... Untuk nilai-nilai Y yang diukur rendah, nilai-nilai Y yang diprediksi dari model yang berguna akan cenderung lebih tinggi daripada nilai yang terukur aktual, dan sebaliknya.

Michael Bishop
sumber

Implikasi dari apa yang Anda katakan adalah bahwa, jika nilai-nilai secara konsisten underpredicted pada nilai-nilai Y yang rendah, dan secara konsisten overpredicted pada nilai-nilai Y yang tinggi, tidak apa-apa. Itu masalah, kan?

rolando2

@ rolando2, saya belum menyiratkan apa yang Anda katakan saya telah menyiratkan mungkin saya harus menjelaskan jawaban saya. Seperti yang Anda katakan, secara konsisten underpredicting pada nilai Y rendah dan overpredicting pada nilai Y yang tinggi akan menjadi pertanda model yang sangat buruk. Saya membayangkan yang sebaliknya, overpredicting pada nilai-nilai rendah Y dan underpredicting pada nilai-nilai tinggi Y. Fenomena ini umum, dan diperkirakan kira-kira sebanding dengan seberapa banyak varians dalam variabel dependen yang dapat Anda jelaskan. Bayangkan Anda tidak memiliki variabel apa pun yang memprediksi Y, jadi Anda selalu menggunakan mean sebagai prediksi Anda

Michael Bishop

1

apa yang Anda katakan masuk akal bagi saya, kecuali untuk satu hal. Saya mengalami kesulitan membayangkan bahwa tren sekuat yang Luigi telah tunjukkan akan pernah muncul dalam suara atau solusi yang diinginkan, bahkan jika tren berubah dari kiri atas ke kanan bawah.

rolando2

1

@ rolando2, Residual biasanya didefinisikan sebagai diamati - dipasang, oleh karena itu residu negatif adalah prediksi berlebihan. Dalam model yang ditentukan dengan baik dengan sedikit kekuatan penjelas - saya seorang ilmuwan sosial jadi saya melihat ini sepanjang waktu - akan ada hubungan positif yang kuat antara residu dan nilai hasil yang diamati. Jika ini adalah plot residual vs aktual, maka tren dari kiri atas ke kanan bawah, akan menjadi sinyal dari model yang salah sebutkan yang awalnya Anda khawatirkan.

Michael Bishop

Ok, salahku. Seperti Michael Bishop dan Roah menulis, Gretl memplot residu sehubungan dengan y yang diamati , bukan yang diprediksi. Saya sangat menyesal atas semua kekacauan ini, saya benar-benar tidak mengharapkan semua jawaban ini. Saya seorang pemula dan saya membuat kesalahan ini, jadi saya harap Anda bisa "memaafkan" saya. Lagi pula, saya pikir ini harus menunjukkan saya bahwa saya harus menggunakan lebih banyak variabel penjelas. Terimakasih untuk semua!

Luigi

3

Jawaban yang ditawarkan memberi saya beberapa ide tentang apa yang terjadi di sini. Saya percaya mungkin ada beberapa kesalahan yang dilakukan secara tidak sengaja. Lihat apakah cerita berikut ini masuk akal: Untuk memulai, saya pikir mungkin ada hubungan yang kuat antara X & Y dalam data (berikut adalah beberapa kode dan plot):

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

masukkan deskripsi gambar di sini

Tetapi karena kesalahan Y diprediksi hanya dari mean. Menggabungkan ini, residu dari model hanya rata-rata diplot terhadap X, meskipun apa yang dimaksudkan adalah plot terhadap nilai-nilai yang sesuai (kode & plot):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

masukkan deskripsi gambar di sini

Kita dapat memperbaikinya dengan mencocokkan model yang sesuai dan memplot residu dari itu (kode & plot):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

masukkan deskripsi gambar di sini

Ini sepertinya jenis kesalahan yang saya buat ketika saya mulai.

gung - Pasang kembali Monica
sumber

0

Grafik ini menunjukkan bahwa model yang Anda pasang tidak baik. Seperti @gung katakan dalam komentar pertama pada pertanyaan utama bahwa seharusnya tidak ada hubungan antara respon yang dipredikatkan dan residual.

"Seorang analis harus mengharapkan model regresi untuk keliru dalam memprediksi respons secara acak; model harus memprediksi nilai yang lebih tinggi dari yang sebenarnya dan lebih rendah dari yang sebenarnya dengan probabilitas yang sama. Lihat ini "

Saya akan merekomendasikan respons plot pertama vs variabel independen untuk melihat hubungan di antara mereka. Mungkin masuk akal untuk menambahkan istilah polinomial dalam model.

Biostat
sumber

0

Bukankah ini yang terjadi jika tidak ada hubungan antara variabel X & Y? Dari melihat grafik ini, tampaknya Anda pada dasarnya memprediksi Y dengan artinya.

Adam
sumber

0

Saya pikir OP diplotkan residual vs variabel respons asli (bukan variabel respons yang dipasang dari model). Saya melihat plot seperti ini sepanjang waktu, dengan pola yang persis sama. Pastikan Anda memplot residual vs nilai yang dipasang, karena saya tidak yakin inferensi berarti apa yang dapat Anda kumpulkan dari residual vs Y asli. Tapi saya pasti bisa salah.

Todai
sumber

Apakah masuk akal untuk mempelajari plot residu sehubungan dengan variabel dependen?

Jawaban: