Saat ini saya sedang mengerjakan proyek untuk melakukan peramalan data deret waktu (data bulanan). Saya menggunakan R untuk melakukan peramalan. Saya memiliki 1 variabel dependen (y) dan 3 variabel independen (x1, x2, x3). Variabel y memiliki 73 pengamatan, dan begitu pula 3 variabel lainnya (juga 73). Dari Januari 2009 hingga Januari 2015. Saya telah memeriksa korelasi dan p-value, dan itu semua penting untuk dimasukkan ke dalam model. Pertanyaan saya adalah: Bagaimana saya bisa membuat prediksi yang baik menggunakan semua variabel independen? Saya tidak memiliki nilai mendatang untuk variabel-variabel ini. Katakanlah saya ingin memprediksi apa variabel y saya dalam lebih dari 2 tahun (pada 2017). Bagaimana saya bisa melakukan ini?
Saya mencoba kode berikut:
model = arima(y, order(0,2,0), xreg = externaldata)
Bisakah saya melakukan prediksi nilai y lebih dari 2 tahun dengan kode ini?
Saya juga mencoba kode regresi:
reg = lm(y ~ x1 + x2 + x3)
Tetapi bagaimana saya meluangkan waktu dalam kode ini? Bagaimana saya bisa meramalkan berapa nilai y saya akan berakhir katakanlah 2 tahun? Saya baru mengenal statistik dan perkiraan. Saya telah melakukan beberapa pembacaan dan cam melintasi nilai lag, tetapi bagaimana saya bisa menggunakan nilai lag dalam model untuk melakukan peramalan?
Sebenarnya pertanyaan saya secara keseluruhan adalah bagaimana saya bisa meramalkan data deret waktu dengan variabel eksternal tanpa nilai masa depan?
Jawaban:
Jika Anda mencocokkan suatu model menggunakan variabel eksternal dan ingin meramalkan dari model ini, Anda akan memerlukan (perkiraan) nilai-nilai masa depan dari variabel eksternal, polos dan sederhana. Tidak ada jalan lain untuk ini.
Tentu saja ada berbagai cara untuk memperkirakan variabel penjelas Anda. Anda dapat menggunakan nilai yang diamati terakhir (perkiraan "jalan acak naive") atau rata-rata keseluruhan. Anda dapat mengaturnya menjadi nol jika ini merupakan nilai yang berguna bagi mereka (mis., Peristiwa khusus yang terjadi di masa lalu seperti gempa bumi, yang tidak Anda duga akan terjadi lagi). Atau Anda bisa menyesuaikan dan memperkirakan model deret waktu untuk variabel-variabel penjelas ini sendiri, misalnya menggunakan
auto.arima
.Alternatifnya adalah menyesuaikan model dengan Anday y
xreg
Saya merekomendasikan buku teks peramalan online gratis ini , terutama bagian ini tentang regresi berganda (sayangnya, tidak ada tentang ARIMAX di sana), serta posting blog Rob Hyndman "The ARIMAX model muddle" .
sumber
Seperti yang dikatakan Yogi Berra, "Sulit membuat prediksi, terutama tentang masa depan."
Banyak modul perangkat lunak stat akan menghasilkan prakiraan berdasarkan aliran deret waktu secara univariat tanpa adanya informasi di masa depan, misalnya, Prakiraan Proc dalam SAS atau sejumlah modul ARIMA yang tersedia. Prakiraan ini adalah proyeksi berdasarkan perilaku historis data Anda.
Anda memberi tahu kami bahwa data Anda bulanan, tetapi jangan beri tahu kami berapa periode yang Anda miliki. Pendekatan lain adalah mengatur kembali tiga infus Anda 24 bulan ke DV sehingga periode yang mereka prediksi adalah t + 24. Ini mengasumsikan bahwa Anda memiliki jumlah tanggal yang memadai untuk menginisialisasi model dan mengkalibrasi setiap musim yang relevan, yang sesuai.
sumber
Seperti yang saya lihat, Anda memiliki tiga opsi:
Setiap pendekatan memiliki kekuatan dan kelemahannya sendiri, sehingga yang terbaik tergantung pada konteks spesifik.
sumber