Dalam regresi linier berganda, saya dapat memahami korelasi antara residual dan prediktor adalah nol, tetapi apa korelasi yang diharapkan antara residual dan variabel kriteria? Haruskah diharapkan nol atau berkorelasi tinggi? Apa artinya itu?
regression
residuals
Jfly
sumber
sumber
Jawaban:
Dalam model regresi:
asumsi umum adalah bahwa , i = 1 , . . . , n adalah sampel iid. Dengan asumsi bahwa E x i u i = 0 dan E ( x i x ′ i ) memiliki peringkat penuh, penaksir kuadrat terkecil biasa:(yi,xi,ui) i=1,...,n Exiui=0 E(xix′i)
konsisten dan asimptotik normal. Kovarians yang diharapkan antara residual dan variabel responnya adalah:
Jika kita lebih lanjut mengasumsikan bahwa dan E ( u 2 i | x 1 , . . . , X n ) = σ 2 , kita dapat menghitung kovarians diharapkan antara y i dan residu regresinya:E(ui|x1,...,xn)=0 E(u2i|x1,...,xn)=σ2 yi
Sekarang untuk mendapatkan korelasi kita perlu menghitung dan Var ( u i ) . Ternyata ituVar(yi) Var(u^i)
karenanya
Sekarang istilah berasal dari diagonal dari topi matriks H = X ( X ' X ) - 1 X ' , di mana X = [ x i , . . . , x N ] ′ . Matriks H adalah idempoten, karenanya memenuhi properti berikutx′i(∑nj=1xjx′j)−1xi H=X(X′X)−1X′ X=[xi,...,xN]′ H
di mana adalah istilah diagonal H . The rank ( H ) adalah jumlah variabel independen linear di x i , yang biasanya jumlah variabel. Mari kita sebut itu hal . Jumlah h i i adalah ukuran sampel N . Jadi kita memiliki N istilah nonnegatif yang seharusnya berjumlah hingga p . Biasanya N jauh lebih besar daripada p , maka banyak h i ihii H rank(H) xi p hii N N p N p hii akan mendekati nol, yang berarti bahwa korelasi antara residual dan variabel respon akan mendekati 1 untuk bagian pengamatan yang lebih besar.
Istilah juga digunakan dalam berbagai diagnosa regresi untuk menentukan pengamatan berpengaruh.hii
sumber
Korelasi tergantung pada . Jika R 2 tinggi, itu berarti bahwa banyak variasi dalam variabel dependen Anda dapat dikaitkan dengan variasi dalam variabel independen Anda, dan BUKAN istilah kesalahan Anda.R2 R2
Namun, jika rendah, maka itu berarti bahwa banyak variasi dalam variabel dependen Anda tidak terkait dengan variasi dalam variabel independen Anda, dan karenanya harus terkait dengan istilah kesalahan.R2
Pertimbangkan model berikut:
, di mana Y dan X tidak berkorelasi.Y=Xβ+ε Y X
Dengan asumsi kondisi keteraturan yang cukup untuk ditahan CLT.
akan konvergen ke0, karenaXdanYtidak berkorelasi. Oleh karena itu Y =X β akan selalu nol. Dengan demikian,ε:=Y - Y =Y-0=Y. εdanYberkorelasi sempurna !!!β^ 0 X Y Y^=Xβ^ ε:=Y−Y^=Y−0=Y ε Y
Memegang semua yang lain tetap, meningkatkan akan mengurangi korelasi antara kesalahan dan ketergantungan. Korelasi yang kuat belum tentu menyebabkan alarm. Ini bisa berarti proses yang mendasarinya berisik. Namun, R 2 yang rendah (dan karenanya korelasi yang tinggi antara kesalahan dan dependen) mungkin disebabkan oleh kesalahan spesifikasi model.R2 R2
sumber
Saya menemukan topik ini cukup menarik dan jawaban saat ini sayangnya tidak lengkap atau sebagian menyesatkan - terlepas dari relevansi dan popularitas tinggi pertanyaan ini.
Dengan definisi kerangka OLS klasik harus ada ada hubungan antara dan uŷ u^ , karena residu yang diperoleh per konstruksi berkorelasi dengan berasal OLS estimator. Varians meminimalkan properti di bawah homoskedasticity memastikan bahwa kesalahan residual tersebar secara acak di sekitar nilai yang dipasang. Ini dapat secara formal ditunjukkan oleh:ŷ
= P σ 2 - P σ 2 = 0
Di mana dan P adalah matriks idempoten didefinisikan sebagai: P = X ( X ' X ) X ' dan M = I - P .M P P=X(X′X)X′ M=I−P
Hasil ini didasarkan pada eksogenitas yang ketat dan homoskedastisitas, dan praktis berlaku dalam sampel besar. Intuisi untuk uncorrelatedness mereka adalah sebagai berikut: Nilai-nilai fitted pada X yang berpusat di sekitar u , yang dianggap sebagai independen dan identik didistribusikan. Namun, setiap penyimpangan dari exogeneity dan homoskedasticity ketat asumsi dapat menyebabkan variabel penjelas menjadi endogen dan memacu korelasi laten antara u dan y .ŷ X û û ŷ
Sekarang korelasi antara residual "asli" y adalah cerita yang sama sekali berbeda:û y
(= dengan merangkum entri diagonal dari matriks kovarians dan dibagi dengan N)
Sebagai contoh, saya ingin menunjukkan pernyataan yang dibuat oleh poster sebelumnya di sini. Dikatakan bahwa,
sumber
Jawaban Adam salah. Bahkan dengan model yang sangat cocok dengan data, Anda masih bisa mendapatkan korelasi tinggi antara residual dan variabel dependen. Itulah alasan mengapa tidak ada buku regresi yang meminta Anda memeriksa korelasi ini. Anda dapat menemukan jawabannya di buku "Analisis Terapan Regresi" Dr. Draper.
sumber
Jadi, residual adalah varians Anda yang tidak dapat dijelaskan, perbedaan antara prediksi model Anda dan hasil aktual yang Anda modelkan. Dalam praktiknya, beberapa model yang dihasilkan melalui regresi linier akan memiliki semua residu mendekati nol kecuali jika regresi linier digunakan untuk menganalisis proses mekanis atau tetap.
Idealnya, residu dari model Anda harus acak, artinya tidak boleh dikorelasikan dengan variabel independen atau dependen Anda (apa yang Anda sebut variabel kriteria). Dalam regresi linier, istilah kesalahan Anda terdistribusi normal, sehingga residu Anda juga harus didistribusikan secara normal. Jika Anda memiliki pencilan yang signifikan, atau Jika residu Anda berkorelasi dengan variabel dependen Anda atau variabel independen Anda, maka Anda memiliki masalah dengan model Anda.
Jika Anda memiliki pencilan yang signifikan dan distribusi residu yang tidak normal, maka pencilan tersebut mungkin memiringkan bobot Anda (Betas), dan saya akan menyarankan menghitung DFBETAS untuk memeriksa pengaruh pengamatan Anda terhadap bobot Anda. Jika residu Anda berkorelasi dengan variabel dependen Anda, maka ada sejumlah besar varians yang tidak dapat dijelaskan yang tidak Anda perhitungkan. Anda juga dapat melihat ini jika Anda menganalisis pengamatan berulang tentang hal yang sama, karena autokorelasi. Ini dapat diperiksa dengan melihat apakah residu Anda berkorelasi dengan variabel waktu atau indeks Anda. Jika residu Anda berkorelasi dengan variabel independen Anda, maka model Anda heteroskedastik (lihat: http://en.wikipedia.org/wiki/Heteroscedasticity). Anda harus memeriksa (jika Anda belum melakukannya) apakah variabel input Anda terdistribusi secara normal, dan jika tidak, maka Anda harus mempertimbangkan untuk menskalakan atau mengubah data Anda (jenis yang paling umum adalah log dan root-square) untuk membuatnya lebih dinormalisasi.
Dalam hal keduanya, residu Anda, dan variabel independen Anda, Anda harus mengambil QQ-Plot, serta melakukan tes Kolmogorov-Smirnov (implementasi khusus ini kadang-kadang disebut sebagai tes Lilliefors) untuk memastikan bahwa nilai-nilai Anda pas distribusi normal.
Tiga hal yang cepat dan dapat membantu dalam mengatasi masalah ini, sedang memeriksa median residu Anda, harus sedekat mungkin dengan nol (rata-rata hampir selalu menjadi nol sebagai akibat dari bagaimana istilah kesalahan dipasang. dalam regresi linier), tes Durbin-Watson untuk autokorelasi dalam residu Anda (terutama seperti yang saya sebutkan sebelumnya, jika Anda melihat beberapa pengamatan dari hal yang sama), dan melakukan plot residual parsial akan membantu Anda mencari heteroskedastisitas dan outlier.
sumber