Bagaimana cara memperhitungkan dampak liburan dalam perkiraan

12

Saya memiliki seri waktu harian yang cukup dapat diprediksi dengan musiman mingguan. Saya dapat membuat prediksi yang tampaknya cukup akurat (dikonfirmasi oleh validasi silang) ketika tidak ada hari libur. Namun, ketika ada hari libur, saya memiliki masalah berikut:

  1. Saya mendapatkan angka bukan nol untuk liburan dalam perkiraan saya, meskipun semua liburan historis adalah 0. Ini sebenarnya bukan masalah utama. Masalahnya adalah ...
  2. Karena pemrosesan yang tidak terjadi pada hari libur "tumpah" ke hari-hari setelah liburan, variabel dummy sederhana tidak memotongnya, karena pencilan ini tampaknya bersifat inovasi jangka pendek. Jika tidak ada musiman mingguan, saya mungkin bisa membuat perkiraan untuk mendistribusikan data yang belum diproses pada hari libur selama lima hari atau lebih setelah liburan (seperti yang disarankan dalam Bagaimana Anda membuat variabel yang mencerminkan dampak utama dan keterlambatan liburan / efek kalender dalam analisis deret waktu? ). Namun, distribusi "limpahan" tergantung pada hari di mana liburan terjadi, dan apakah liburan itu Natal atau Thanksgiving, di mana pesanan ditempatkan pada tingkat yang lebih rendah daripada sisa tahun ini.

Berikut adalah beberapa potret dari validasi silang saya yang menunjukkan hasil yang diprediksi (biru) vs hasil (merah) yang sebenarnya untuk liburan yang muncul pada hari yang berbeda dalam seminggu:

masukkan deskripsi gambar di sini

Saya juga khawatir bahwa dampak Natal tergantung pada hari minggu itu jatuh, dan saya hanya memiliki enam atau lebih tahun data historis.

Apakah ada yang punya saran untuk bagaimana menghadapi jenis outlier inovasi dalam konteks perkiraan? (Sayangnya saya tidak bisa membagikan data apa pun)

Julia Maddalena
sumber
1
Saya cukup tertarik dengan ini juga.
EngrStudent
2
Jika Anda tidak dapat memposting data Anda, maka mungkin Anda bisa memposting data buatan yang mirip dengan data Anda? Dalam banyak kasus ini memfasilitasi jawaban yang lebih relevan.
Tim
1
Skala data. Modelnya akan sama (hanya diskalakan). Anda bahkan dapat mengubah skala prakiraan kembali ke metrik asli Anda.
Tom Reilly

Jawaban:

1

Tidak bisakah Anda membuat variabel dummy untuk liburan, satu untuk liburan + 1 dan satu untuk liburan + 2 dan hanya menetapkan mereka menjadi 1 selama mereka jatuh pada hari kerja?

Sedangkan untuk Thanksgiving dan Natal, memperkenalkan variabel dummy terpisah untuk liburan ini tampaknya menjadi pilihan kasus terburuk Anda (karena Anda hanya memiliki enam tahun data). Sampai batas tertentu, itu mungkin satu-satunya pilihan Anda - orang hanya berperilaku berbeda pada hari libur itu daripada pada hari itu, misalnya, Empat Juli (dan jika Anda mempelajari misalnya pola penjualan ritel, maka Anda tentu harus hidup dengan itu menjadi liburan "istimewa" dan pasti ingin menganalisisnya secara terpisah). Namun, mungkin gagasan di bawah ini bermanfaat bagi Anda:

  • Thanksgiving. Bukankah fakta bahwa itu selalu jatuh pada hari yang sama minggu (Kamis) membuatnya lebih mudah? Yaitu boneka Thanksgiving mungkin bisa diterapkan bahkan dalam set data enam tahun karena pola hari kerja akan selalu sama.
  • Hari Natal. Tampak bagi saya dari melihat grafik Anda bahwa masalah utamanya adalah bahwa efeknya berlangsung lebih lama daripada setelah liburan lainnya - jika Anda mendefinisikan "Natal" sebagai Malam Natal (24 Desember), maka itu karena banyak orang juga akan tinggal di rumah Hari Natal (25 Desember) (dan bahkan Boxing Day (26 Desember) di beberapa tempat). Saya akan memikirkan lebih lanjut tentang ini.

Saya harap ini membantu.

Candamir
sumber