Bagaimana cara menguji autokorelasi residu?

23

Saya memiliki matriks dengan dua kolom yang memiliki banyak harga (750). Pada gambar di bawah ini saya merencanakan residual dari regresi linier berikut:

lm(prices[,1] ~ prices[,2])

Melihat gambar, tampaknya merupakan autokorelasi yang sangat kuat dari residu.

Namun bagaimana saya bisa menguji apakah autokorelasi residu itu kuat? Metode apa yang harus saya gunakan?

Residu dari regresi linier

Terima kasih!

Dail
sumber
8
Anda tidak perlu menguji autokorelasi. Itu di sana. Plotnya menunjukkan itu. Anda dapat melihat fungsi autokorelasi dari residu ini (fungsi acf()), tetapi ini hanya akan mengkonfirmasi apa yang dapat dilihat oleh mata biasa: korelasi antara residu yang tertinggal sangat tinggi.
Wolfgang
@ Wolfgang, ya, benar, tapi saya harus memeriksanya secara terprogram .. Saya akan melihat fungsi acf. Terima kasih!
Dail
@ Wolfgang, saya melihat acf () tapi saya tidak melihat semacam nilai p untuk memahami apakah ada korelasi yang kuat atau tidak. Bagaimana menafsirkan hasilnya? Terima kasih
Dail
Dengan H0: korelasi (r) = 0, maka r mengikuti normal / t dist dengan rata-rata 0 dan varians dari sqrt (jumlah pengamatan). Jadi Anda bisa mendapatkan interval kepercayaan 95% menggunakan +/-qt(0.75, numberofobs)/sqrt(numberofobs)
Jim
@ Jim Varians korelasi tidak . Deviasi standar juga tidakn . Tetapi memilikindi dalamnya. nn
Glen_b -Reinstate Monica

Jawaban:

17

Mungkin ada banyak cara untuk melakukan ini, tetapi yang pertama muncul dalam pikiran adalah berdasarkan regresi linier. Anda dapat mundur residual berturut-turut terhadap satu sama lain dan menguji kemiringan yang signifikan. Jika ada korelasi otomatis, maka harus ada hubungan linier antara residu berturut-turut. Untuk menyelesaikan kode yang Anda tulis, Anda dapat melakukan:

mod = lm(prices[,1] ~ prices[,2])
res = mod$res 
n = length(res) 
mod2 = lm(res[-n] ~ res[-1]) 
summary(mod2)

tεtt1εt1

εt1εtε

Makro
sumber
terima kasih banyak atas contohnya. Hanya satu keraguan, Bagaimana saya bisa menguji jika res [-1] signifikan?
Dail
tp
melakukan tes cepat dengan: lm (rnorm (1000) ~ jitter (1: 1000)) saya dapatkan: Kesalahan standar residual: 1,006 pada 997 derajat kebebasan. Beberapa R-squared: 0,0003463, Disesuaikan R-squared: -0,0006564 F-statistik : 0,3454 pada 1 dan 997 DF, nilai-p: 0,5569 nilai-p tidak dapat menolak hipotesis nol
Dail
Makro, saya telah menguji residu dari grafik yang saya buat di atas, dan hasilnya adalah: Residual standard error: 0,04514 pada 747 derajat kebebasan. Beberapa R-squared: 0,9241, Adjusted R-squared: 0,924 F-statistik: 9093 pada 1 dan 747 DF, p-value: <2.2e-16, Kelihatannya tidak terlalu bagus, sangat aneh karena ada autokorelasi yang kuat, apa yang bisa saya lakukan?
Dail
3
Ini disebut uji Breusch-Godfrey untuk autokorelasi.
Charlie
16

Gunakan tes Durbin-Watson , diimplementasikan dalam paket lmtest .

dwtest(prices[,1] ~ prices[,2])
Rob Hyndman
sumber
sangat aneh saya dapatkan: p-value <2.2e-16, Bagaimana mungkin? data tampaknya sangat berkorelasi!
Dail
4
Nilai-p adalah kemungkinan mendapatkan korelasi sebanyak yang diamati jika tidak ada korelasi nyata. Jadi, jika p sangat kecil, karena itu, itu menunjukkan ada banyak korelasi yang ada dalam sampel.
Rob Hyndman
Apakah maksud Anda nilai p seperti ini menunjukkan bahwa residu sangat berkorelasi otomatis?
Dail
hmm aneh, lihat di: imageshack.us/f/59/17671620.png bagaimana mungkin gambar yang tepat tidak terkait otomatis?
Dail
: dail Tampaknya gambar kiri memiliki perubahan struktural dalam varian (lihat artikel Ruey Tsay "Pencilan, Pergeseran Level, dan Perubahan Varians dalam Rangkaian Waktu", Journal of Forecasting, VO 7, 1-20 (1988) untuk detail) yang dalam hal ini tidak "membingungkan" DW mungkin karena fakta bahwa seluruh distribusi masih normal sementara gambar kanan memiliki beberapa anomali yang terlihat jelas (dan secara empiris dapat diidentifikasi) (Pulsa) menciptakan wikopedia non-normal (leptokurtotik lihat wikopedia: distribusi) dengan kelebihan kurtosis positif disebut distribusi leptokurtik) yang menyebabkan malapetaka dengan DW
IrishStat
11

Uji DW atau uji Regresi Linier tidak kuat untuk anomali dalam data. Jika Anda memiliki Pulsa, Pulsa Musiman, Pergeseran Level, atau Tren Waktu Lokal, tes ini tidak berguna karena komponen yang tidak diobati ini memperbesar varians kesalahan sehingga menurunkan bias tes yang menyebabkan Anda (seperti yang telah Anda ketahui) salah menerima hipotesis nol tanpa korelasi otomatis. Sebelum kedua tes ini atau tes parametrik lainnya yang saya ketahui dapat digunakan, seseorang harus "membuktikan" bahwa rata-rata residu tidak berbeda secara statistik dari 0,0 di mana-mana, jika tidak asumsi yang mendasarinya tidak valid. Diketahui bahwa salah satu kendala dari tes DW adalah anggapannya bahwa kesalahan regresi terdistribusi secara normal. Catatan sarana yang terdistribusi secara normal antara lain: Tidak ada anomali (lihathttp://homepage.newschool.edu/~canjels/permdw12.pdf ). Selain itu tes DW hanya menguji untuk korelasi-otomatis lag 1. Data Anda mungkin memiliki efek mingguan / musiman dan ini akan menjadi tidak terdiagnosis dan lebih jauh, tidak diobati, akan menurunkan bias tes DW.

IrishStat
sumber
apa tes untuk menguji bahwa residu berbeda secara signifikan dari nol? Jika regresi termasuk mencegat, maka residual mean adalah aljabar nol, jadi saya ingin tahu bagaimana mungkin untuk menghindari masalah ini.
mpiktas
: mpkitas Seperti yang Anda katakan ketika Anda memasukkan konstanta rata-rata kesalahan dijamin menjadi 0,0 tetapi itu tidak menjamin bahwa rata-rata kesalahan adalah Nol di mana-mana. Misalnya jika seri memiliki perubahan dalam rata-rata, rata-rata keseluruhan akan menjadi konstan tetapi akan menghasilkan dua "rumpun" residu, masing-masing dengan rata-rata yang berbeda. Anda dapat membaca artikel Ruey Tsay "Pencilan, Pergeseran Level, dan Perubahan Ragam dalam Rangkaian Waktu", Journal of Forecasting, VOl 7, 1-20 (1988) untuk detailnya. ATAU fakultas.chicagobooth.edu/ruey.tsay/teaching/uts/lec10-08.pdf ATAU Google "deteksi intervensi otomatis"
IrishStat
1
Ini hanya asumsi standar "tidak ada variabel yang dihilangkan" yang tersirat dalam semua analisis regresi.
Charlie