Saya memiliki latar belakang sedang dalam peramalan seri waktu. Saya telah melihat beberapa buku peramalan, dan saya tidak melihat pertanyaan-pertanyaan berikut ini dialaminya.
Saya punya dua pertanyaan:
Bagaimana saya menentukan secara obyektif (melalui uji statistik) jika seri waktu tertentu memiliki:
- Musim Stochastic atau Musim Deterministik
- Tren Stochastic atau Tren Deterministik
Apa yang akan terjadi jika saya memodelkan deret waktu saya sebagai tren / musiman deterministik ketika deret tersebut memiliki komponen stokastik yang jelas?
Bantuan apa pun yang menjawab pertanyaan-pertanyaan ini akan sangat dihargai.
Contoh data untuk tren:
7,657
5,451
10,883
9,554
9,519
10,047
10,663
10,864
11,447
12,710
15,169
16,205
14,507
15,400
16,800
19,000
20,198
18,573
19,375
21,032
23,250
25,219
28,549
29,759
28,262
28,506
33,885
34,776
35,347
34,628
33,043
30,214
31,013
31,496
34,115
33,433
34,198
35,863
37,789
34,561
36,434
34,371
33,307
33,295
36,514
36,593
38,311
42,773
45,000
46,000
42,000
47,000
47,500
48,000
48,500
47,000
48,900
time-series
forecasting
arima
stochastic-processes
peramal cuaca
sumber
sumber
Jawaban:
1) Mengenai pertanyaan pertama Anda, beberapa statistik uji telah dikembangkan dan dibahas dalam literatur untuk menguji nol stasioneritas dan nol dari unit root. Beberapa dari banyak makalah yang ditulis tentang masalah ini adalah sebagai berikut:
Terkait dengan tren:
Terkait dengan komponen musiman:
Buku teks Banerjee, A., Dolado, J., Galbraith, J. y Hendry, D. (1993), Ko-Integrasi, Koreksi Kesalahan, dan analisis ekonometrik data non-stasioner, Teks Lanjutan dalam Ekonometrika. Oxford University Press juga merupakan referensi yang bagus.
2) Kekhawatiran kedua Anda dibenarkan oleh literatur. Jika ada tes root unit maka t-statistik tradisional yang akan Anda terapkan pada tren linier tidak mengikuti distribusi standar. Lihat misalnya, Phillips, P. (1987), Regresi deret waktu dengan root unit, Econometrica 55 (2), 277-301.
Jika unit root ada dan diabaikan, maka kemungkinan menolak nol bahwa koefisien tren linier adalah nol berkurang. Artinya, kita akan berakhir memodelkan tren linier deterministik terlalu sering untuk tingkat signifikansi tertentu. Di hadapan unit root kita harus mengubah data dengan mengambil perbedaan reguler ke data.
3) Sebagai ilustrasi, jika Anda menggunakan R Anda dapat melakukan analisis berikut dengan data Anda.
Pertama, Anda bisa menerapkan tes Dickey-Fuller untuk null dari unit root:
dan tes KPSS untuk hipotesis nol terbalik, stasioneritas terhadap alternatif stasioneritas di sekitar tren linier:
Hasil: Tes ADF, pada tingkat signifikansi 5%, root unit tidak ditolak; Uji KPSS, nol stasioneritas ditolak demi model dengan tren linier.
Selain catatan: menggunakan
lshort=FALSE
nol dari tes KPSS tidak ditolak pada level 5%, namun, ia memilih 5 lag; pemeriksaan lebih lanjut yang tidak diperlihatkan di sini menunjukkan bahwa memilih 1-3 lag sesuai untuk data dan mengarah pada penolakan hipotesis nol.Pada prinsipnya, kita harus membimbing diri kita dengan ujian yang dengannya kita mampu menolak hipotesis nol (bukan dengan tes yang kita tidak menolak (kita menerima) nol). Namun, regresi dari seri asli pada tren linier ternyata tidak dapat diandalkan. Di satu sisi, R-square tinggi (lebih dari 90%) yang ditunjukkan dalam literatur sebagai indikator regresi palsu.
Di sisi lain, residu tersebut berkorelasi otomatis:
Selain itu, nol dari unit root di residual tidak dapat ditolak.
Pada titik ini, Anda dapat memilih model yang akan digunakan untuk mendapatkan perkiraan. Misalnya, perkiraan berdasarkan model deret waktu struktural dan model ARIMA dapat diperoleh sebagai berikut.
Alur ramalan:
Perkiraannya sama dalam kedua kasus dan terlihat masuk akal. Perhatikan bahwa prakiraan mengikuti pola yang relatif deterministik mirip dengan tren linier, tetapi kami tidak memodelkan tren linier secara eksplisit. Alasannya adalah sebagai berikut: i) dalam model tren lokal, varians dari komponen lereng diperkirakan nol. Ini mengubah komponen tren menjadi drift yang memiliki efek tren linier. ii) ARIMA (0,1,1), model dengan drift dipilih dalam model untuk seri yang dibedakan. Efek dari istilah konstan pada seri yang dibedakan adalah tren linier. Ini dibahas dalam posting ini .
Anda dapat memeriksa bahwa jika model lokal atau ARIMA (0,1,0) tanpa penyimpangan dipilih, maka perkiraannya adalah garis horizontal lurus dan, karenanya, tidak akan memiliki kemiripan dengan dinamika data yang diamati. Nah, ini adalah bagian dari teka-teki tes unit root dan komponen deterministik.
Sunting 1 (inspeksi residu): Autokorelasi dan ACF parsial tidak menyarankan struktur dalam residu.
Seperti yang disarankan IrishStat, memeriksa keberadaan pencilan juga disarankan. Dua pencilan aditif terdeteksi menggunakan paket
tsoutliers
.Melihat ACF, kita dapat mengatakan bahwa, pada tingkat signifikansi 5%, residualnya acak dalam model ini juga.
Dalam hal ini, keberadaan outlier potensial tampaknya tidak mengganggu kinerja model. Ini didukung oleh uji Jarque-Bera untuk normalitas; null normalitas dalam residual dari model awal (
fit1
,fit2
) tidak ditolak pada tingkat signifikansi 5%.Sunting 2 (plot residu dan nilainya) Ini adalah bagaimana residu terlihat seperti:
Dan ini adalah nilainya dalam format csv:
sumber
Sehubungan dengan data non-musiman Anda ... Tren dapat berupa dua bentuk y (t) = y (t − 1) + θ0 (A) Tren Stochastic atau Y (t) = a + bx1 + cx2 (B) Deterministic Tren dll di mana x1 = 1,2,3,4 .... t dan x2 = 0,0,0,0,0,1,2,3,4 sehingga satu tren berlaku untuk pengamatan 1 − t dan tren kedua berlaku untuk pengamatan 6 sampai t.
Seri non-musiman Anda berisi 29 nilai. Saya menggunakan AUTOBOX perangkat lunak yang telah saya bantu kembangkan dengan cara yang sepenuhnya otomatis. AUTOBOX adalah prosedur transparan karena merinci setiap langkah dalam proses pemodelan. Grafik dari seri / nilai-nilai / perkiraan dipasang di sini . Menggunakan AUTOBOX untuk membentuk model tipe A menyebabkan hal-hal berikut . Persamaan disajikan lagi di sini , Statistik model adalah . Sebidang residual ada di sini sementara tabel nilai yang diperkirakan di sini . Membatasi AUTOBOX ke model tipe B menyebabkan AUTOBOX mendeteksi tren yang meningkat pada periode 14 :. !
Dalam hal membandingkan model: Karena jumlah pengamatan yang dipasang berbeda (masing-masing 26 dan 29) tidak mungkin untuk menggunakan metrik standar (yaitu r-square, standar error, AIC dll) untuk menentukan dominasi walaupun dalam kasus ini anggukan akan pergi ke A. Residu dari A lebih baik karena struktur AR (2). Prakiraan dari B sedikit agresif sedangkan pola perkiraan A lebih intuitif. Seseorang dapat menahan mengatakan 4 pengamatan dan mengevaluasi akurasi perkiraan untuk perkiraan periode 1 dari 4 asal yang berbeda (25,26,27 dan 28).
sumber