Saya punya pertanyaan / kebingungan tentang seri stasioner yang diperlukan untuk pemodelan dengan ARIMA (X). Saya lebih memikirkan hal ini dalam hal inferensi (efek intervensi), tetapi ingin tahu apakah perkiraan versus inferensi membuat perbedaan dalam respons.
Pertanyaan:
Semua sumber pengantar yang telah saya baca menyatakan bahwa seri ini harus stasioner, yang masuk akal bagi saya dan di situlah "Aku" dalam arima masuk (berbeda).
Yang membingungkan saya adalah penggunaan tren dan pergeseran dalam ARIMA (X) dan implikasi (jika ada) untuk persyaratan stasioner.
Apakah penggunaan baik konstanta / drift term dan / atau variabel tren sebagai variabel eksogen (yaitu menambahkan 't' sebagai regressor) meniadakan persyaratan seri menjadi stasioner? Apakah jawabannya berbeda tergantung pada apakah seri memiliki unit root (mis. Tes ADF) atau memiliki tren deterministik tetapi tidak ada unit root?
ATAU
Apakah seri selalu harus diam, dibuat melalui differencing dan / atau detrending sebelum menggunakan ARIMA (X)?
sumber
Ingatlah bahwa ada berbagai jenis non-stasioneritas dan cara berbeda dalam menghadapinya. Empat yang umum adalah:
1) Tren deterministik atau tren stasioneritas. Jika seri Anda seperti ini, jangan tren atau sertakan tren waktu dalam regresi / model. Anda mungkin ingin memeriksa teorema Frisch – Waugh – Lovell yang satu ini.
2) Level shift dan penembusan struktural. Jika hal ini terjadi, Anda harus memasukkan variabel dummy untuk setiap jeda atau jika sampel Anda cukup panjang dengan masing-masing regimen.
3) Mengubah varian. Baik memodelkan sampel secara terpisah atau memodelkan varians berubah menggunakan kelas pemodelan ARCH atau GARCH.
4) Jika seri Anda berisi unit root. Secara umum Anda kemudian harus memeriksa hubungan kointegrasi antara variabel tetapi karena Anda khawatir dengan peramalan univariat, Anda harus membedakannya sekali atau dua kali tergantung pada urutan integrasi.
Untuk memodelkan serangkaian waktu menggunakan kelas pemodelan ARIMA, langkah-langkah berikut harus tepat:
1) Lihatlah ACF dan PACF bersama-sama dengan plot seri waktu untuk melihat apakah seri tersebut stasioner atau non-stasioner.
2) Uji seri untuk root unit. Ini dapat dilakukan dengan berbagai tes, beberapa yang paling umum adalah tes ADF, tes Phillips-Perron (PP), tes KPSS yang memiliki nol stasioneritas atau tes DF-GLS yang merupakan tes yang paling efisien dari tes tersebut di atas. CATATAN! Kalau-kalau seri Anda mengandung istirahat struktural, tes ini bias terhadap tidak menolak nol dari root unit. Jika Anda ingin menguji ketahanan dari tes ini dan jika Anda mencurigai satu atau lebih kerusakan struktural Anda harus menggunakan tes istirahat struktural endogen. Dua yang umum adalah tes Zivot-Andrews yang memungkinkan untuk satu istirahat struktural endogen dan Clemente-Montañés-Reyes yang memungkinkan untuk dua istirahat struktural. Yang terakhir memungkinkan untuk dua model yang berbeda.
3) Jika ada root unit dalam seri maka Anda harus membedakan seri. Setelah itu Anda harus menjalankan tampilan pada ACF, PACF dan plot seri waktu dan mungkin memeriksa root unit kedua untuk berada di sisi yang aman. ACF dan PACF akan membantu Anda memutuskan berapa banyak persyaratan AR dan MA yang harus Anda sertakan.
4) Jika seri tidak mengandung akar unit tetapi plot seri waktu dan ACF menunjukkan bahwa seri memiliki tren deterministik Anda harus menambahkan tren saat memasang model. Beberapa orang berpendapat bahwa itu sepenuhnya valid untuk hanya membedakan seri ketika berisi tren deterministik walaupun informasi dapat hilang dalam proses. Namun ide yang bagus untuk membedakannya untuk melihat memiliki banyak AR dan / atau istilah MA yang perlu Anda sertakan. Tapi tren waktu itu valid.
5) Paskan model yang berbeda dan lakukan pemeriksaan diagnostik biasa, Anda mungkin ingin menggunakan kriteria informasi atau MSE untuk memilih model terbaik mengingat sampel yang sesuai dengan Anda.
6) Lakukan dalam peramalan sampel pada model yang paling cocok dan hitung fungsi kerugian seperti MSE, MAPE, MAD untuk melihat mana di antara mereka yang benar-benar berkinerja terbaik ketika menggunakannya untuk memperkirakan karena itulah yang ingin kita lakukan!
7) Lakukan peramalan sampel seperti bos dan senang dengan hasil Anda!
sumber
Menentukan apakah tren (atau komponen lain seperti musiman) bersifat deterministik atau stokastik adalah bagian dari teka-teki dalam analisis deret waktu. Saya akan menambahkan beberapa poin pada apa yang telah dikatakan.
1) Perbedaan antara tren deterministik dan stochastic adalah penting karena jika unit root hadir dalam data (misalnya jalan acak) maka statistik uji yang digunakan untuk inferensi tidak mengikuti distribusi tradisional. Lihat posting ini untuk beberapa detail dan referensi.
Kita dapat mensimulasikan jalan acak (tren stokastik di mana perbedaan pertama harus diambil), menguji signifikansi tren deterministik dan melihat persentase kasus di mana nol tren deterministik ditolak. Di R, kita bisa melakukan:
Pada tingkat signifikansi 5%, kami berharap untuk menolak nol dalam 95% kasus, namun, dalam percobaan ini ditolak hanya dalam ~ 89% kasus dari 10.000 jalan acak yang disimulasikan.
Kami dapat menerapkan tes unit root untuk menguji apakah unit root hadir. Tetapi kita harus menyadari bahwa tren linier pada gilirannya dapat menyebabkan kegagalan untuk menolak nol dari unit root. Untuk mengatasi hal ini, tes KPSS mempertimbangkan nol stasioneritas di sekitar tren linier.
2) Masalah lain adalah interpretasi komponen deterministik dalam suatu proses di tingkat atau perbedaan pertama. Efek intersep tidak sama dalam model dengan tren linier seperti pada jalan acak. Lihat posting ini untuk ilustrasi.
Kami tiba di:
Jika representasi grafis dari suatu rangkaian menunjukkan tren linier yang relatif jelas, kami tidak dapat memastikan apakah itu disebabkan oleh adanya tren linier deterministik atau karena pergeseran dalam proses jalan acak. Grafik pelengkap dan statistik pengujian harus diterapkan.
Ada beberapa peringatan yang perlu diingat karena analisis berdasarkan unit root dan statistik uji lainnya tidak mudah. Beberapa dari tes ini mungkin dipengaruhi oleh adanya pengamatan terluar atau pergeseran level dan memerlukan pemilihan urutan lag yang tidak selalu mudah.
Sebagai solusi untuk teka-teki ini, saya berpikir bahwa praktik umum adalah mengambil perbedaan data hingga seri tampak stasioner (misalnya melihat fungsi autokorelasi, yang seharusnya bergerak cepat ke nol) dan kemudian memilih model ARMA.
sumber
Pertanyaan yang sangat menarik, saya juga ingin tahu apa yang orang lain katakan. Saya seorang insinyur dengan pelatihan dan bukan ahli statistik, sehingga seseorang dapat memeriksa logika saya. Sebagai insinyur, kami ingin melakukan simulasi dan bereksperimen, jadi saya termotivasi untuk mensimulasikan dan menguji pertanyaan Anda.
Seperti yang ditunjukkan secara empiris di bawah ini, menggunakan variabel tren di ARIMAX meniadakan kebutuhan untuk membedakan dan membuat tren seri stasioner. Berikut adalah logika yang saya gunakan untuk memverifikasi.
Di bawah ini adalah kode R dan plot:
AR (1) Plot Simulasi
AR (1) dengan tren deterministik
ARIMAX Residual PACF dengan tren sebagai eksogen. Residulasinya acak, tanpa pola yang tersisa
Seperti dapat dilihat di atas, pemodelan tren deterministik sebagai variabel eksogen dalam model ARIMAX meniadakan perlunya perbedaan. Setidaknya dalam kasus deterministik itu berhasil. Saya bertanya-tanya bagaimana ini akan berperilaku dengan tren stokastik yang sangat sulit diprediksi atau model.
Untuk menjawab pertanyaan kedua Anda, YA semua ARIMA termasuk ARIMAX harus dibuat diam. Setidaknya itulah yang dikatakan buku teks.
Selain itu, seperti yang dikomentari, lihat artikel ini . Penjelasan yang sangat jelas tentang Tren Deterministik vs. Tren Stochastic dan bagaimana cara menghapusnya untuk menjadikannya tren dan survei literatur yang sangat bagus tentang topik ini. Mereka menggunakannya dalam konteks jaringan saraf, tetapi berguna untuk masalah deret waktu umum. Rekomendasi akhir mereka adalah ketika itu jelas diidentifikasi sebagai tren deterministik, yang melakukan linear detrending, atau menerapkan pembedaan untuk membuat seri waktu stasioner. Juri masih di luar sana, tetapi sebagian besar peneliti yang dikutip dalam artikel ini merekomendasikan perbedaan sebagai lawan dari linear detrending.
Edit:
Di bawah ini adalah berjalan acak dengan proses stokastik melayang, menggunakan variabel eksogen dan arima perbedaan. Keduanya nampak memberikan jawaban yang sama dan pada intinya keduanya sama.
Semoga ini membantu!
sumber