Saya menggunakan serangkaian data penjualan harian yang berisi sekitar 2 tahun titik data harian. Berdasarkan beberapa tutorial / contoh online, saya mencoba mengidentifikasi musiman dalam data. Tampaknya ada periodisitas / musiman musiman, bulanan, dan mungkin tahunan.
Misalnya, ada hari gajian, khususnya pada hari gajian pertama efek bulan yang berlangsung selama beberapa hari selama seminggu. Ada juga beberapa efek khusus liburan, yang dapat diidentifikasi dengan jelas dengan mencatat pengamatan.
Dilengkapi dengan beberapa pengamatan ini, saya mencoba yang berikut:
ARIMA (dengan
Arima
danauto.arima
dari paket R-forecast), menggunakan regressor (dan nilai default lainnya yang diperlukan dalam fungsi). Regressor yang saya buat pada dasarnya adalah sebuah matriks dengan nilai 0/1:- Variabel 11 bulan (n-1)
- 12 variabel liburan
- Tidak dapat mengetahui bagian gajian ... karena efeknya sedikit lebih rumit daripada yang saya kira. Efek gajian bekerja secara berbeda, tergantung pada hari kerja tanggal 1 bulan itu.
Saya menggunakan 7 (yaitu, frekuensi mingguan) untuk memodelkan deret waktu. Saya mencoba tes - perkiraan 7 hari sekaligus. Hasilnya masuk akal: akurasi rata-rata untuk perkiraan 11 minggu sampai rata-rata mingguan RMSE hingga 5%.
Model TBATS (dari paket R-forecast) - menggunakan beberapa musiman (7, 30.4375, 365.25) dan jelas tidak ada regressor. Keakuratannya secara mengejutkan lebih baik daripada model ARIMA pada rata-rata mingguan RMSE 3.5%.
Dalam hal ini, model tanpa kesalahan ARMA berkinerja lebih baik. Sekarang Jika saya menerapkan koefisien hanya untuk Efek Liburan dari model ARIMA yang dijelaskan dalam # 1, untuk hasil model TBATS, rata-rata mingguan RMSE meningkat menjadi 2,95%
Sekarang tanpa memiliki banyak latar belakang atau pengetahuan tentang teori-teori yang mendasari model-model ini, saya berada dalam dilema apakah pendekatan TBATS ini bahkan valid. Meskipun itu meningkatkan RMSE secara signifikan dalam tes 11 minggu, saya bertanya-tanya apakah itu dapat mempertahankan akurasi ini di masa depan. Atau bahkan jika menerapkan efek Liburan dari ARIMA ke hasil TBATS dapat dibenarkan. Setiap pemikiran dari setiap / semua kontributor akan sangat dihargai.
Catatan: Lakukan "Simpan Tautan Sebagai", untuk mengunduh file.
Jawaban:
Anda harus mengevaluasi model dan prakiraan dari asal yang berbeda di berbagai cakrawala dan bukan satu nomor untuk mengukur suatu pendekatan.
Saya berasumsi bahwa data Anda berasal dari AS. Saya lebih suka 3+ tahun data harian karena Anda dapat memiliki dua hari libur mendarat di akhir pekan dan tidak membaca hari kerja. Sepertinya dampak Thanksgiving Anda adalah hari libur di 2012 atau ada kesalahan rekaman dari beberapa jenis dan menyebabkan model kehilangan efek Hari Thanksgiving.
Januari biasanya rendah dalam dataset jika Anda terlihat sebagai% tahun ini. Akhir pekan sangat tinggi. Dummiesis mencerminkan perilaku ini .... MONTH_EFF01, FIXED_EFF_N10507, FIXED_EFF_N10607
Saya telah menemukan bahwa menggunakan komponen AR dengan data harian mengasumsikan bahwa dua minggu terakhir dari pola minggu adalah bagaimana pola secara umum yang merupakan asumsi besar. Kami mulai dengan 11 boneka bulanan dan 6 boneka harian. Beberapa keluar dari model. B ** 1 berarti ada dampak kelambatan sehari setelah liburan. Ada 6 hari khusus dalam sebulan (hari 2,3,5,21,29,30 ---- 21 mungkin palsu?) Dan 3 tren waktu, 2 pulsa musiman (di mana hari dalam seminggu mulai menyimpang dari tipikal, 0 sebelum data ini dan 1 setiap 7 hari sesudahnya) dan 2 outlier (perhatikan ucapan syukur!) Ini hanya membutuhkan waktu kurang dari 7 menit untuk berjalan. Unduh semua hasil di sini www.autobox.com/se/dd/daily.zip
Ini termasuk lembar XLS cepat dan kotor untuk memeriksa untuk melihat apakah model masuk akal. Tentu saja,% XLS sebenarnya buruk karena merupakan tolok ukur kasar.
Coba perkirakan model ini:
sumber