Apa masalahnya dengan autokorelasi?

13

Untuk kata pengantar ini, saya memiliki latar belakang matematika yang cukup dalam, tetapi saya tidak pernah benar-benar berurusan dengan deret waktu, atau pemodelan statistik. Jadi kamu tidak harus bersikap sangat lembut padaku :)

Saya membaca makalah ini tentang memodelkan penggunaan energi di bangunan komersial, dan penulis membuat klaim ini:

[Kehadiran autokorelasi muncul] karena model ini telah dikembangkan dari data deret waktu penggunaan energi, yang secara inheren autokorelasi. Setiap model murni deterministik untuk data deret waktu akan memiliki autokorelasi. Autokorelasi ditemukan untuk mengurangi jika [lebih banyak koefisien Fourier] dimasukkan dalam model. Namun, dalam sebagian besar kasus, model Fourier memiliki CV rendah. Oleh karena itu, model dapat diterima untuk tujuan praktis yang tidak menuntut presisi tinggi.

0.) Apa yang dimaksud dengan "model deterministik murni untuk data deret waktu akan memiliki autokorelasi"? Samar-samar saya bisa mengerti apa artinya ini - misalnya, bagaimana Anda mengharapkan untuk memprediksi titik berikutnya dalam rangkaian waktu Anda jika Anda memiliki 0 autocorrelation? Ini bukan argumen matematis, untuk memastikan, itulah sebabnya ini 0 :)

1.) Saya mendapat kesan bahwa autokorelasi pada dasarnya membunuh model Anda, tetapi memikirkannya, saya tidak mengerti mengapa ini harus terjadi. Jadi mengapa autokorelasi adalah hal yang buruk (atau baik)?

2.) Solusi yang saya dengar untuk menangani autokorelasi adalah dengan membedakan deret waktu. Tanpa berusaha membaca pikiran penulis, mengapa orang tidak melakukan perbedaan jika autokorelasi yang tidak dapat diabaikan ada?

3.) Apa batasan yang ditempatkan autokorelasi yang tidak dapat diabaikan pada model? Apakah ini asumsi di suatu tempat (yaitu, residu terdistribusi normal ketika pemodelan dengan regresi linier sederhana)?

Bagaimanapun, maaf jika ini adalah pertanyaan dasar, dan terima kasih sebelumnya telah membantu.

BenDundee
sumber

Jawaban:

10
  1. Saya pikir penulis mungkin berbicara tentang residu model. Saya berpendapat ini karena pernyataannya tentang menambahkan lebih banyak koefisien empat; jika, seperti yang saya yakini, ia menggunakan model fourier, maka menambahkan lebih banyak koefisien akan mengurangi autokorelasi residu dengan mengorbankan CV yang lebih tinggi.

    Jika Anda mengalami kesulitan memvisualisasikan ini, pikirkan contoh berikut: misalkan Anda memiliki kumpulan data 100 poin berikut, yang berasal dari model fourier dua-koefisien dengan menambahkan white gaussian white:

    Titik data

    Grafik berikut menunjukkan dua kesesuaian: satu dikerjakan dengan 2 koefisien fourier, dan satu lagi dikerjakan dengan 200 koefisien fourier:

    Cocok

    Seperti yang Anda lihat, 200 koefisien fourier cocok dengan DATAPOINTS lebih baik, sedangkan 2 koefisien cocok (model 'nyata') cocok dengan MODEL lebih baik. Ini menyiratkan bahwa autokorelasi residu dari model dengan 200 koefisien hampir pasti akan mendekati nol pada semua kelambatan dibandingkan residu dari model koefisien 2, karena model dengan 200 koefisien cocok persis hampir semua titik data (yaitu, residu akan hampir semua nol). Namun, apa yang menurut Anda akan terjadi jika Anda meninggalkan, katakanlah, 10 titik data dari sampel dan cocok dengan model yang sama? Model 2-koefisien akan memprediksi lebih baik titik data yang Anda tinggalkan dari sampel! Dengan demikian, itu akan menghasilkan kesalahan CV yang lebih rendah sebagai lawan model 200-koefisien; ini disebut overfitting. Alasan di balik 'keajaiban' ini adalah karena apa yang sebenarnya diukur oleh CV adalah kesalahan prediksi , yaitu, seberapa baik model Anda memprediksi titik data tidak dalam dataset Anda.

  2. Dalam konteks ini, autokorelasi pada residu adalah 'buruk', karena itu berarti Anda tidak memodelkan korelasi antara datapoints dengan cukup baik. Alasan utama mengapa orang tidak membedakan seri adalah karena mereka sebenarnya ingin memodelkan proses yang mendasarinya. Satu perbedaan deret waktu biasanya untuk menghilangkan periodikitas atau tren, tetapi jika periodisitas atau tren itu sebenarnya yang Anda coba modelkan, maka membedakannya mungkin tampak seperti pilihan terakhir (atau opsi untuk memodelkan residual dengan proses stokastik yang lebih kompleks).
  3. Ini sangat tergantung pada area yang Anda kerjakan. Ini bisa menjadi masalah dengan model deterministik juga. Namun, tergantung pada bentuk autokorelasi, dapat dengan mudah dilihat ketika autokorelasi muncul karena, misalnya, suara kedipan, suara seperti ARMA atau jika itu adalah sumber periodik residual yang mendasari (dalam hal ini Anda mungkin ingin meningkatkan jumlah koefisien fourier).
Néstor
sumber
Terima kasih atas tanggapan Anda, dan jika Anda bersedia, saya ingin mencoba dan mencernanya satu per satu. Untuk 1.), apakah ada cara intuitif untuk memahami mengapa memasukkan lebih banyak koefisien Fourier mengurangi autokorelasi dan meningkatkan CV (saya berasumsi ini adalah CV dari residu)?
BenDundee
1
Saya menambahkan contoh. Semoga ini bisa membantu. Dan ya, dia merujuk pada CV dari residual.
Néstor
Ahh ok, kurasa begitu. Ini terkait dengan apa yang akan saya tanyakan sehubungan dengan 2. Bagaimana orang bisa memperbaiki model ini (secara umum) untuk lebih memahami korelasinya? Bisakah Anda menambahkan kendala tentang matriks korelasi koefisien Fourier?
BenDundee
1
Itu adalah tugas yang sulit bagi saya juga. Terutama dengan model deterministik berkala, menjadi sangat sulit untuk mengetahui model noise apa yang digunakan. Masalah besar adalah bahwa Anda tidak tahu a-priori jumlah koefisien dari model fourier, jadi mereka adalah variabel acak yang harus Anda modelkan juga. Di hadapan sejumlah kecil titik data, saya pasti akan memilih MCMC lompatan reversibel untuk memodelkan ini. Saya akan mencoba model noise yang berbeda dan membandingkan AIC / BIC di antara mereka. Untuk dataset besar, bagaimanapun, ini tidak layak.
Néstor
3

Saya menemukan makalah ini ' Regresi Spurious dalam Ekonometrika ' membantu ketika mencoba memahami mengapa perlu menghilangkan tren. Pada dasarnya jika dua variabel sedang tren maka mereka akan bervariasi, yang merupakan resep untuk masalah.

dugaan
sumber