Menghitung kesalahan perkiraan dengan validasi silang seri waktu

13

Saya memiliki model peramalan untuk seri waktu dan saya ingin menghitung kesalahan prediksi out-of-sample. Saat ini strategi saya berikut ini adalah salah satu yang disarankan di blog Rob Hyndman (dekat bagian bawah halaman) yang berjalan seperti ini (dengan asumsi time series dan satu set pelatihan ukuran k )y1,...,ynk

  1. yt,...,yt+k-1y^t+k
  2. et=y^t+k-yt+k
  3. t=1,...,n-k
  4. MSE=1n-kt=1n-ket2

Pertanyaan saya adalah seberapa besar saya harus khawatir tentang korelasi karena set pelatihan saya yang tumpang tindih. Secara khusus, katakan saya ingin memperkirakan tidak hanya nilai berikutnya, tetapi juga berikutnyam nilai, sehingga saya memiliki prediksi y^t+k,...,y^t+k+m-1 dan kesalahan et,1,...,et,m, dan saya ingin membuat struktur istilah kesalahan prediksi.

Bisakah saya masih menggulung jendela pelatihan yang ditetapkan 1 setiap kali, atau haruskah saya menggulirkannya ke depan m? Bagaimana jawaban untuk pertanyaan-pertanyaan ini berubah jika ada autokorelasi signifikan dalam seri yang saya prediksi (bisa dibayangkan itu adalah proses memori panjang, yaitu fungsi autokorelasi meluruh sebagai hukum kekuatan daripada eksponensial.)

Saya menghargai penjelasan di sini, atau tautan ke suatu tempat di mana saya dapat menemukan hasil teoritis tentang interval kepercayaan di sekitar MSE (atau ukuran kesalahan lainnya).

Chris Taylor
sumber

Jawaban:

11

Sepertinya Anda mungkin lebih tertarik dalam memperkirakan kesalahan menggunakan bootstrap maksimum-entropi , daripada validasi silang. Ini akan memungkinkan Anda untuk menghasilkan banyak bootstrap data Anda, yang kemudian dapat Anda bagi menjadi set kereta / tes sebanyak yang Anda suka untuk menghitung interval kepercayaan untuk perkiraan Anda.

Rob Hyndman memiliki beberapa diskusi lebih lanjut tentang validasi silang serangkaian waktu di blog-nya , di mana ia menerapkan beberapa metode "pengguliran" dan peramalan yang berbeda, tetapi sebagian besar berfokus pada implementasi. Saya memiliki beberapa implementasi lebih lanjut di blog saya juga. Mungkin pendekatan paling sederhana adalah rata-rata kesalahan Anda di semua jendela waktu, dan karena itu abaikan dan potensi korelasi dalam kesalahan.

Sejauh yang saya tahu, keadaan teoritis validasi silang untuk data deret waktu agak di belakang keadaan teoritis validasi silang umum. Secara intuitif, saya berharap kesalahan meningkat seiring dengan meningkatnya cakrawala, yang menunjukkan bahwa Anda harus mengharapkan kesalahan berkorelasi di berbagai cakrawala perkiraan. Mengapa ini membuatmu khawatir?

Zach
sumber