Apa korelasi yang diharapkan antara residual dan variabel dependen?

26

Dalam regresi linier berganda, saya dapat memahami korelasi antara residual dan prediktor adalah nol, tetapi apa korelasi yang diharapkan antara residual dan variabel kriteria? Haruskah diharapkan nol atau berkorelasi tinggi? Apa artinya itu?

Jfly
sumber
4
Apa yang dimaksud dengan "variabel kriteria" ??
whuber
2
@whuber saya menduga Jfly mengacu pada respon / hasil / dependen / dll. variabel. davidmlane.com/hyperstat/A101702.html Sangat menarik untuk melihat banyak nama variabel seperti pergi oleh: en.wikipedia.org/wiki/…
Jeromy Anglim
@Jeromy Terima kasih! Saya sudah menduga itu artinya tetapi tidak yakin. Itu istilah baru bagi saya - dan bagi Wikipedia, jelas.
Whuber
Saya akan berpikir ini akan menjadi sama dengan E[R2] atau yang serupa, seperti R2=[corr(y,y^)]2
probabilityislogic
y=f(x)+e , di manaf adalah fungsi regresi,e adalah kesalahan, danCov(f(x),e)=0 . KemudianCorr(y,e)=SD(e)/SD(y)=1R2 . Itu statistik sampel; nilai yang diharapkan akan serupa tetapi berantakan.
Ray Koopman

Jawaban:

20

Dalam model regresi:

yi=xiβ+ui

asumsi umum adalah bahwa , i = 1 , . . . , n adalah sampel iid. Dengan asumsi bahwa E x i u i = 0 dan E ( x i x i ) memiliki peringkat penuh, penaksir kuadrat terkecil biasa:(yi,xi,ui)i=1,...,nExiui=0E(xixi)

β^=(i=1nxixi)1i=1xiyi

konsisten dan asimptotik normal. Kovarians yang diharapkan antara residual dan variabel responnya adalah:

Eyiui=E(xiβ+ui)ui=Eui2

Jika kita lebih lanjut mengasumsikan bahwa dan E ( u 2 i | x 1 , . . . , X n ) = σ 2 , kita dapat menghitung kovarians diharapkan antara y i dan residu regresinya:E(ui|x1,...,xn)=0E(ui2|x1,...,xn)=σ2yi

Eyiu^i=Eyi(yixiβ^)=E(xiβ+ui)(uixi(β^β))=E(ui2)(1Exi(j=1nxjxj)1xi)

Sekarang untuk mendapatkan korelasi kita perlu menghitung dan Var ( u i ) . Ternyata ituVar(yi)Var(u^i)

Var(u^i)=E(yiu^i),

karenanya

Corr(yi,u^i)=1Exi(j=1nxjxj)1xi

Sekarang istilah berasal dari diagonal dari topi matriks H = X ( X ' X ) - 1 X ' , di mana X = [ x i , . . . , x N ] . Matriks H adalah idempoten, karenanya memenuhi properti berikutxi(j=1nxjxj)1xiH=X(XX)1XX=[xi,...,xN]H

trace(H)=ihii=rank(H),

di mana adalah istilah diagonal H . The rank ( H ) adalah jumlah variabel independen linear di x i , yang biasanya jumlah variabel. Mari kita sebut itu hal . Jumlah h i i adalah ukuran sampel N . Jadi kita memiliki N istilah nonnegatif yang seharusnya berjumlah hingga p . Biasanya N jauh lebih besar daripada p , maka banyak h i ihiiHrank(H)xiphiiNNpNphii akan mendekati nol, yang berarti bahwa korelasi antara residual dan variabel respon akan mendekati 1 untuk bagian pengamatan yang lebih besar.

Istilah juga digunakan dalam berbagai diagnosa regresi untuk menentukan pengamatan berpengaruh.hii

mpiktas
sumber
10
+1 Ini persis analisis yang tepat. Tetapi mengapa Anda tidak menyelesaikan pekerjaan dan menjawab pertanyaan? OP bertanya apakah korelasi ini "tinggi" dan apa artinya .
Whuber
Jadi Anda bisa mengatakan bahwa korelasinya kira-kira 1pN
probabilityislogic
1
Korelasi berbeda untuk setiap pengamatan, tapi ya Anda bisa mengatakan itu, asalkan X tidak memiliki outlier.
mpiktas
21

Korelasi tergantung pada . Jika R 2 tinggi, itu berarti bahwa banyak variasi dalam variabel dependen Anda dapat dikaitkan dengan variasi dalam variabel independen Anda, dan BUKAN istilah kesalahan Anda.R2R2

Namun, jika rendah, maka itu berarti bahwa banyak variasi dalam variabel dependen Anda tidak terkait dengan variasi dalam variabel independen Anda, dan karenanya harus terkait dengan istilah kesalahan.R2

Pertimbangkan model berikut:

, di mana Y dan X tidak berkorelasi.Y=Xβ+εYX

Dengan asumsi kondisi keteraturan yang cukup untuk ditahan CLT.

akan konvergen ke0, karenaXdanYtidak berkorelasi. Oleh karena itu Y =X β akan selalu nol. Dengan demikian,ε:=Y - Y =Y-0=Y. εdanYberkorelasi sempurna !!!β^0XYY^=Xβ^ε:=YY^=Y0=YεY

Memegang semua yang lain tetap, meningkatkan akan mengurangi korelasi antara kesalahan dan ketergantungan. Korelasi yang kuat belum tentu menyebabkan alarm. Ini bisa berarti proses yang mendasarinya berisik. Namun, R 2 yang rendah (dan karenanya korelasi yang tinggi antara kesalahan dan dependen) mungkin disebabkan oleh kesalahan spesifikasi model.R2R2

Mat
sumber
Saya menemukan jawaban ini membingungkan, sebagian melalui penggunaan dari " " untuk berdiri baik untuk istilah kesalahan dalam model dan residu Y - Y . Titik kebingungan lainnya adalah referensi untuk "menyatu" meskipun tidak ada urutan apa pun dalam bukti yang konvergensi mungkin berlaku. Asumsi bahwa X dan Y tidak berkorelasi tampaknya istimewa dan tidak menggambarkan keadaan umum. Semua ini mengaburkan apa pun yang mungkin ingin dijawab oleh jawaban ini atau klaim mana yang umumnya benar. εYY^XY
whuber
17

Saya menemukan topik ini cukup menarik dan jawaban saat ini sayangnya tidak lengkap atau sebagian menyesatkan - terlepas dari relevansi dan popularitas tinggi pertanyaan ini.

Dengan definisi kerangka OLS klasik harus ada ada hubungan antara dan uŷu^ , karena residu yang diperoleh per konstruksi berkorelasi dengan berasal OLS estimator. Varians meminimalkan properti di bawah homoskedasticity memastikan bahwa kesalahan residual tersebar secara acak di sekitar nilai yang dipasang. Ini dapat secara formal ditunjukkan oleh:ŷ

= P σ 2 - P σ 2 = 0

Cov(ŷ,û|X)=Cov(Py,My|X)=Cov(Py,(IP)y|X)=PCov(y,y)(IP)
=Pσ2Pσ2=0

Di mana dan P adalah matriks idempoten didefinisikan sebagai: P = X ( X ' X ) X ' dan M = I - P .MPP=X(XX)XM=IP

Hasil ini didasarkan pada eksogenitas yang ketat dan homoskedastisitas, dan praktis berlaku dalam sampel besar. Intuisi untuk uncorrelatedness mereka adalah sebagai berikut: Nilai-nilai fitted pada X yang berpusat di sekitar u , yang dianggap sebagai independen dan identik didistribusikan. Namun, setiap penyimpangan dari exogeneity dan homoskedasticity ketat asumsi dapat menyebabkan variabel penjelas menjadi endogen dan memacu korelasi laten antara u dan y . ŷXûûŷ

Sekarang korelasi antara residual "asli" y adalah cerita yang sama sekali berbeda:ûy

Cov(y,û|X)=Cov(yMy|X)=Cov(y,(1P)y)=Cov(y,y)(1P)=σ2M

u^

Var(û)=σ2M=Cov(y,û|X)

yu^

Covscalar(y,û|X)=Var(û|X)=(ui2)/N

(= dengan merangkum entri diagonal dari matriks kovarians dan dibagi dengan N)

yu^βu^,y=1Var(û|X)

σ2Myσ2ICorr(y,û)

Corr(y,û)=Var(û)Var(u^)Var(y)=Var(û)Var(y)=Var(û)σ2

Corr(y,û)yy^u^

Corr(y,û)=11+Var(y)^Var(û)

Var(û)0Var(y^)

yûy

yûûu

Sebagai contoh, saya ingin menunjukkan pernyataan yang dibuat oleh poster sebelumnya di sini. Dikatakan bahwa,

"Jika residu Anda berkorelasi dengan variabel independen Anda, maka model Anda heteroskedastik ..."

ûxk

Xui=XMy=X(IP)y=XyXPy
=XyXX(XX)Xy=XyXy=0
Xui=0Cov(X,ui|X)=0Cov(xki,ui|xki)=0

yûXX, seperti yang sering terjadi dengan penduga FGSL. Ini berbeda dengan mengevaluasi korelasi polos. Saya harap ini membantu membuat masalah menjadi lebih jelas.

Majte
sumber
1
var(u^)var(y)=SSETSS=1R2corr(y,u^)=1R2
2
Yang saya temukan menarik tentang jawaban ini adalah bahwa korelasinya selalu positif.
probabilityislogic
Var(y)
@probabilityislogic: Tidak yakin apakah saya dapat mengikuti langkah Anda. Maka akan berada di bawah squareroot 1+ (1/1-R ^ 2), yaitu (2-R ^ 2) / (1-R ^ 2)? Namun yang benar adalah tetap positif. Intuisi adalah bahwa jika Anda memiliki garis melalui sebar scatter, dan Anda mundur garis ini pada kesalahan dari garis itu, harus jelas bahwa sebagai nilai y dari garis itu meningkatkan nilai residu meningkat juga. Ini karena residu bergantung secara positif pada y oleh konstruksi.
Majte
@mpiktas: Dalam hal ini, matriks menjadi skalar karena kita berhadapan hanya dengan satu dimensi.
Majte
6

Jawaban Adam salah. Bahkan dengan model yang sangat cocok dengan data, Anda masih bisa mendapatkan korelasi tinggi antara residual dan variabel dependen. Itulah alasan mengapa tidak ada buku regresi yang meminta Anda memeriksa korelasi ini. Anda dapat menemukan jawabannya di buku "Analisis Terapan Regresi" Dr. Draper.

Jeff
sumber
3
Bahkan jika benar, ini lebih merupakan pernyataan daripada jawaban menurut standar CV, @ Jeff. Maukah Anda mengelaborasi / mendukung klaim Anda? Bahkan cukup nomor halaman & edisi Draper & Smith saja sudah cukup.
gung - Reinstate Monica
4

Jadi, residual adalah varians Anda yang tidak dapat dijelaskan, perbedaan antara prediksi model Anda dan hasil aktual yang Anda modelkan. Dalam praktiknya, beberapa model yang dihasilkan melalui regresi linier akan memiliki semua residu mendekati nol kecuali jika regresi linier digunakan untuk menganalisis proses mekanis atau tetap.

Idealnya, residu dari model Anda harus acak, artinya tidak boleh dikorelasikan dengan variabel independen atau dependen Anda (apa yang Anda sebut variabel kriteria). Dalam regresi linier, istilah kesalahan Anda terdistribusi normal, sehingga residu Anda juga harus didistribusikan secara normal. Jika Anda memiliki pencilan yang signifikan, atau Jika residu Anda berkorelasi dengan variabel dependen Anda atau variabel independen Anda, maka Anda memiliki masalah dengan model Anda.

Jika Anda memiliki pencilan yang signifikan dan distribusi residu yang tidak normal, maka pencilan tersebut mungkin memiringkan bobot Anda (Betas), dan saya akan menyarankan menghitung DFBETAS untuk memeriksa pengaruh pengamatan Anda terhadap bobot Anda. Jika residu Anda berkorelasi dengan variabel dependen Anda, maka ada sejumlah besar varians yang tidak dapat dijelaskan yang tidak Anda perhitungkan. Anda juga dapat melihat ini jika Anda menganalisis pengamatan berulang tentang hal yang sama, karena autokorelasi. Ini dapat diperiksa dengan melihat apakah residu Anda berkorelasi dengan variabel waktu atau indeks Anda. Jika residu Anda berkorelasi dengan variabel independen Anda, maka model Anda heteroskedastik (lihat: http://en.wikipedia.org/wiki/Heteroscedasticity). Anda harus memeriksa (jika Anda belum melakukannya) apakah variabel input Anda terdistribusi secara normal, dan jika tidak, maka Anda harus mempertimbangkan untuk menskalakan atau mengubah data Anda (jenis yang paling umum adalah log dan root-square) untuk membuatnya lebih dinormalisasi.

Dalam hal keduanya, residu Anda, dan variabel independen Anda, Anda harus mengambil QQ-Plot, serta melakukan tes Kolmogorov-Smirnov (implementasi khusus ini kadang-kadang disebut sebagai tes Lilliefors) untuk memastikan bahwa nilai-nilai Anda pas distribusi normal.

Tiga hal yang cepat dan dapat membantu dalam mengatasi masalah ini, sedang memeriksa median residu Anda, harus sedekat mungkin dengan nol (rata-rata hampir selalu menjadi nol sebagai akibat dari bagaimana istilah kesalahan dipasang. dalam regresi linier), tes Durbin-Watson untuk autokorelasi dalam residu Anda (terutama seperti yang saya sebutkan sebelumnya, jika Anda melihat beberapa pengamatan dari hal yang sama), dan melakukan plot residual parsial akan membantu Anda mencari heteroskedastisitas dan outlier.

Adam
sumber
Terima kasih banyak. Penjelasan Anda sangat membantu saya.
Jfly
1
+1 Bagus, jawaban komprehensif. Saya akan nitpick pada 2 poin. "Jika residu Anda berkorelasi dengan variabel independen Anda, maka model Anda heteroskedastik" - Saya akan mengatakan bahwa jika varians residu Anda tergantung pada tingkat variabel independen, maka Anda memiliki heteroskedastisitas. Juga, saya telah mendengar tes Kolmogorov-Smirnov / Lilliefors yang dideskripsikan sebagai "sangat tidak dapat diandalkan," dan dalam praktiknya saya tentu menemukan ini benar. Lebih baik membuat penentuan subyektif berdasarkan plot QQ atau histogram sederhana.
rolando2
4
Klaim bahwa "residu dari model Anda ... tidak boleh dikorelasikan dengan ... variabel dependen Anda" pada umumnya tidak benar, seperti yang dijelaskan dalam jawaban lain di utas ini. Maukah Anda memperbaiki posting ini?
gung - Reinstate Monica
1
(-1) Saya pikir posting ini tidak cukup relevan dengan pertanyaan yang diajukan. Ini bagus sebagai saran umum, tetapi mungkin kasus "jawaban yang benar untuk pertanyaan yang salah".
probabilityislogic