Menangkap musiman dalam regresi berganda untuk data harian

13

Saya memiliki data penjualan harian untuk produk yang sangat musiman. Saya ingin menangkap musiman dalam model regresi. Saya telah membaca bahwa jika Anda memiliki data triwulanan atau bulanan, dalam hal ini Anda dapat membuat masing-masing 3 dan 11 variabel dummy - tetapi dapatkah saya menangani data harian?

Saya memiliki data harian tiga tahun. Variabel independen adalah titik harga, bendera promosi (ya / tidak), dan suhu. Variabel dependen adalah penjualan produk itu. Saya tidak mencari model deret waktu karena saya menggunakan model regresi berganda.

Arushi
sumber
Berapa banyak data yang Anda punya? Berapa tahun nilainya? Apakah Anda memiliki data tentang suhu seperti itu? Seperti apa sisa model Anda? Apa DV dan IV Anda?
Peter Flom - Reinstate Monica
Selain apa yang ditanyakan oleh Peter Flom, apakah Anda memodelkan data Anda sebagai deret waktu univariat atau deret waktu multivarian? Jika multivarian, apakah Anda memiliki variabel lain? Apakah variabel-variabel tersebut menunjukkan perilaku musiman? jika demikian menambahkan variabel dummy tidak perlu. Bisakah Anda memberikan informasi tambahan ini?
peramal
Saya telah mengedit pertanyaan saya. Bisakah Anda memberikan solusinya? Terima kasih
Arushi
Saya sepenuhnya setuju dengan @IrishStat, kami tidak akan mengira untuk mengabaikan model deret waktu, model yang cukup bagus di luar sana yang menangkap banyak musiman. Saya akan menyarankan Anda dapat memeriksa model ruang keadaan perataan eksponensial yang memiliki kemampuan menangani beberapa musim, tren, secara bersamaan. itu secara eksklusif di R. Anda dapat menggunakan paket if forecast ().
Karthi V

Jawaban:

10

@Irishstat membahas cukup banyak tentang apa yang akan saya katakan, tetapi saya akan merespons dengan pengalaman pribadi saya sendiri dalam memodelkan data ini dengan regresi deret waktu dan regresi OLS.

Jika ini adalah data harian maka saya akan melakukan hal berikut:

Buat variabel dummy untuk berbagai musim:

  • Untuk mengabadikan hari dalam seminggu, buat 6 variabel dummy.
  • Untuk mengabadikan hari di musim, buat 30 variabel dummy
  • Untuk menangkap bulan dalam setahun, buat 11 variabel dummy.

Buat variabel dummy untuk variabel tren:

  • Jika seri waktu menunjukkan tren linier, maka tambahkan variabel tren waktu.

  • Jika deret waktu menunjukkan tren nonlinier, tambahkan variabel tren waktu nonlinier seperti kuadrat / kubik / log

Tambahkan Variabel variabel bebas

  • Ini adalah data deret waktu, jadi harus diperhatikan efek timbal dan lag dari varibales independen. Misalnya dalam contoh Anda, Anda menyebutkan bendera promosi titik harga, mereka mungkin tidak memiliki efek langsung pada respons Anda, yaitu, mungkin ada lagging dan efek pembusukan / permanen . Jadi misalnya, jika menjalankan promosi hari ini, Anda mungkin mengalami peningkatan penjualan hari ini tetapi efek promosi meluruh setelah beberapa hari. Tidak ada cara mudah untuk memodelkan ini menggunakan regresi berganda, Anda ingin menggunakan pemodelan fungsi transfer yang parsimonoius dan dapat menangani segala jenis efek memimpin dan lag. Lihat contoh ini yang saya posting sebelumnya, di mana ada intervensi (dalam titik harga kasus Anda) dan ada peningkatan yang tiba-tiba, diikuti oleh efek pembusukan. Karena itu jika Anda memilikipengetahuan apriori tentang efek awal dan lag, buat variabel tambahan dalam variabel dummy kasus Anda sebelum dan setelah titik harga dan (ya / tidak) perubahan promosi.

  • Anda juga perlu menambahkan variabel indikator Liburan yang bergerak, misalnya seperti yang ditunjukkan Irishstat bahwa Anda ingin menambahkan Paskah / Thanksgiving (di AS) yang memindahkan Liburan. Liburan yang tanggalnya sudah ditentukan akan secara otomatis dijaga jika Anda menggunakan skema pengkodean boneka untuk menangkap musiman.

  • Selain itu, Anda perlu mengidentifikasi pencilan seperti aditif / pulsa (peristiwa satu kali) atau pergeseran level (pergeseran permanen) dan menambahkannya sebagai regressor. Mengidentifikasi pencilan dalam regresi berganda untuk data deret waktu hampir tidak mungkin; Anda akan memerlukan metode deteksi pencilan seri waktu seperti prosedur Tsay atau prosedur Chen dan Liu yang telah dimasukkan dalam perangkat lunak seperti AUTOBOX, SPSS, SAS atau tsoutlierpaket dalam R.

Masalah Potensial:

Berikut ini adalah masalah yang akan Anda temui jika Anda memodelkan data deret waktu menggunakan regresi berganda OLS.

  • Kesalahan mungkin terkait otomatis. Lihat ini bagus situs dan ini situs menjelaskan masalah ini. Salah satu cara untuk menghindari ini adalah dengan menggunakan Generalized least square (GLS) atau pendekatan ARIMAX vs regresi berganda OLS, di mana Anda dapat memperbaiki korelasi otomatis.
  • 6+30+11=47
  • Dengan menggunakan variabel dummy, Anda mengasumsikan bahwa musiman Anda bersifat deterministik yaitu tidak berubah seiring waktu. Karena Anda hanya memiliki 3 tahun data, saya tidak akan khawatir tentang hal itu, tetapi tetap ada baiknya untuk merencanakan seri dan melihat apakah musim tidak berubah.

Dan ada banyak kelemahan menggunakan regresi berganda. Jika prediksi lebih penting bagi Anda maka saya akan bertahan setidaknya 6 bulan data dan menguji kemampuan prediksi regresi berganda Anda. Jika tujuan utama Anda adalah untuk menjelaskan korelasi antara variabel independen, maka saya akan berhati-hati menggunakan regresi berganda, dan sebagai gantinya saya akan menggunakan pendekatan deret waktu seperti ARIMAX / GLS.

Jika Anda tertarik, Anda bisa merujuk ke teks yang sangat baik oleh Pankratz , untuk fungsi transfer dan pemodelan regresi dinamis. Untuk peramalan seri waktu umum, lihat Makridakis et al . Juga, teks referensi yang baik adalah oleh Diebold untuk peramalan berdasarkan regresi dan seri waktu.

peramal cuaca
sumber
Ringkasan yang sangat bagus TETAPI saya ingin menambahkan bahwa Anda mengabaikan efek minggu-bulan-tertentu dan hari-bulan-khusus di samping kemungkinan efek akhir pekan yang semuanya saya temukan sangat penting. Lebih lanjut, efek pra-peristiwa dan pasca-peristiwa tidak boleh diabaikan. Pertimbangkan kegiatan sekitar Paskah dan sekitar hari libur / acara besar lainnya. Seringkali ada pola respons individu yang membutuhkan penggabungan spesifikasi LEAD. Anda juga harus mencatat bahwa parameter dapat dan sering berubah seiring waktu dan kita perlu memvalidasi asumsi keteguhan parameter.
IrishStat
Terima kasih @Irishstat. Kamu benar. Saya lupa tentang liburan yang bergerak dan efek lead and lag mereka.
peramal
2

Apa yang Anda butuhkan adalah model yang akan menggabungkan efek harian, efek mingguan, efek bulanan, efek minggu dalam sebulan, efek harian, efek lead dan lag dari liburan, pergeseran level / step yang tidak ditentukan tetapi dapat diidentifikasi secara empiris, tren waktu lokal, perubahan pulsa musiman dan pulsa sambil menggabungkan struktur ARIMA dan mungkin berurusan dengan perubahan parameter dan varians kesalahan dari waktu ke waktu. Ini disebut Fungsi Transfer dan dapat dengan mudah disajikan kembali (TETAPI TIDAK SEDERHANA) sebagai Regresi Linier Berganda.

Secara khusus indikator harian akan mengambil 6 prediktor. Secara umum seseorang harus dengan hati-hati mengatur (mengidentifikasi) jenis prediksi apa yang dibutuhkan. Jika Anda memiliki banyak waktu, Anda dapat bereksperimen dengan beberapa struktur yang telah saya sebutkan. Atau Anda mungkin memerlukan beberapa perangkat lunak / konsultasi canggih untuk membuat Anda menyelesaikan masalah Anda dalam hidup Anda.

IrishStat
sumber