Saya ingin tahu apakah masuk akal untuk mempelajari plot residual sehubungan dengan variabel dependen ketika saya mendapatkan regresi univariat. Jika masuk akal, apa arti korelasi yang kuat, linier, dan tumbuh antara residual (pada sumbu y) dan nilai estimasi dari variabel dependen (pada sumbu x) artinya?
regression
residuals
Luigi
sumber
sumber
Jawaban:
Misalkan Anda memiliki regresi , di mana . Kemudian, . Semakin tinggi nilai , semakin besar residual. Sebaliknya, plot residual terhadap seharusnya tidak menunjukkan hubungan sistematis. Juga, nilai prediksi harus kira-kira --- sama untuk setiap pengamatan. Jika semua nilai yang diprediksi kira-kira sama, mereka harus tidak berkorelasi dengan kesalahan.β 1 ≈ 0 y i - β 0 ≈ ε i y x y i β 0ysaya= β0+ β1xsaya+ ϵsaya β1≈ 0 ysaya- β0≈ ϵsaya y x y^saya β^0
Apa yang plot katakan kepada saya adalah bahwa dan pada dasarnya tidak berhubungan (tentu saja, ada cara yang lebih baik untuk menunjukkan ini). Beri tahu kami jika koefisien Anda tidak mendekati 0.y β 1x y β^1
Sebagai diagnosa yang lebih baik, gunakan plot residual terhadap upah yang diprediksi atau terhadap nilai . Anda seharusnya tidak mengamati pola yang dapat dibedakan dalam plot ini.x
Jika Anda ingin sedikit demonstrasi R, ini dia:
sumber
Dengan asumsi model yang diperkirakan ditentukan dengan benar ...
Mari masing menunjukkan , matriks P X adalah matriks proyeksi, sehingga P 2 X = P X dan P ' X = P X .PX= X( X′X)- 1X′ PX P2X= PX P′X= PX
.Co v ( Y^, e^) = Co v ( PXY, ( Saya- PX) Y) = PXCo v ( Y, Y) ( Saya- PX)′= σ2PX( Saya- PX) = 0
Jadi sebar-plot residu terhadap prediksi variabel dependen seharusnya tidak menunjukkan korelasi
Tapi!
Sejauh yang saya tahu Gretl menghasilkan secara default grafik residual terhadap variabel dependen asli (bukan yang diprediksi!).
sumber
Apakah mungkin Anda bingung dengan nilai pas / prediksi dengan nilai aktual?
Seperti yang dikatakan @gung dan @biostat, Anda berharap tidak ada hubungan antara nilai yang dipasang dan residu. Di sisi lain, menemukan hubungan linear antara nilai aktual dari variabel dependen / hasil dan residual diharapkan dan tidak terlalu informatif.
Ditambahkan untuk memperjelas kalimat sebelumnya: Tidak sembarang hubungan linier antara residual dan nilai aktual dari hasil yang diharapkan ... Untuk nilai-nilai Y yang diukur rendah, nilai-nilai Y yang diprediksi dari model yang berguna akan cenderung lebih tinggi daripada nilai yang terukur aktual, dan sebaliknya.
sumber
Jawaban yang ditawarkan memberi saya beberapa ide tentang apa yang terjadi di sini. Saya percaya mungkin ada beberapa kesalahan yang dilakukan secara tidak sengaja. Lihat apakah cerita berikut ini masuk akal: Untuk memulai, saya pikir mungkin ada hubungan yang kuat antara X & Y dalam data (berikut adalah beberapa kode dan plot):
Tetapi karena kesalahan Y diprediksi hanya dari mean. Menggabungkan ini, residu dari model hanya rata-rata diplot terhadap X, meskipun apa yang dimaksudkan adalah plot terhadap nilai-nilai yang sesuai (kode & plot):
Kita dapat memperbaikinya dengan mencocokkan model yang sesuai dan memplot residu dari itu (kode & plot):
Ini sepertinya jenis kesalahan yang saya buat ketika saya mulai.
sumber
Grafik ini menunjukkan bahwa model yang Anda pasang tidak baik. Seperti @gung katakan dalam komentar pertama pada pertanyaan utama bahwa seharusnya tidak ada hubungan antara respon yang dipredikatkan dan residual.
"Seorang analis harus mengharapkan model regresi untuk keliru dalam memprediksi respons secara acak; model harus memprediksi nilai yang lebih tinggi dari yang sebenarnya dan lebih rendah dari yang sebenarnya dengan probabilitas yang sama. Lihat ini "
Saya akan merekomendasikan respons plot pertama vs variabel independen untuk melihat hubungan di antara mereka. Mungkin masuk akal untuk menambahkan istilah polinomial dalam model.
sumber
Bukankah ini yang terjadi jika tidak ada hubungan antara variabel X & Y? Dari melihat grafik ini, tampaknya Anda pada dasarnya memprediksi Y dengan artinya.
sumber
Saya pikir OP diplotkan residual vs variabel respons asli (bukan variabel respons yang dipasang dari model). Saya melihat plot seperti ini sepanjang waktu, dengan pola yang persis sama. Pastikan Anda memplot residual vs nilai yang dipasang, karena saya tidak yakin inferensi berarti apa yang dapat Anda kumpulkan dari residual vs Y asli. Tapi saya pasti bisa salah.
sumber