Saya memiliki data penjualan harian untuk produk yang sangat musiman. Saya ingin menangkap musiman dalam model regresi. Saya telah membaca bahwa jika Anda memiliki data triwulanan atau bulanan, dalam hal ini Anda dapat membuat masing-masing 3 dan 11 variabel dummy - tetapi dapatkah saya menangani data harian?
Saya memiliki data harian tiga tahun. Variabel independen adalah titik harga, bendera promosi (ya / tidak), dan suhu. Variabel dependen adalah penjualan produk itu. Saya tidak mencari model deret waktu karena saya menggunakan model regresi berganda.
Jawaban:
@Irishstat membahas cukup banyak tentang apa yang akan saya katakan, tetapi saya akan merespons dengan pengalaman pribadi saya sendiri dalam memodelkan data ini dengan regresi deret waktu dan regresi OLS.
Jika ini adalah data harian maka saya akan melakukan hal berikut:
Buat variabel dummy untuk berbagai musim:
Buat variabel dummy untuk variabel tren:
Jika seri waktu menunjukkan tren linier, maka tambahkan variabel tren waktu.
Jika deret waktu menunjukkan tren nonlinier, tambahkan variabel tren waktu nonlinier seperti kuadrat / kubik / log
Tambahkan Variabel variabel bebas
Ini adalah data deret waktu, jadi harus diperhatikan efek timbal dan lag dari varibales independen. Misalnya dalam contoh Anda, Anda menyebutkan bendera promosi titik harga, mereka mungkin tidak memiliki efek langsung pada respons Anda, yaitu, mungkin ada lagging dan efek pembusukan / permanen . Jadi misalnya, jika menjalankan promosi hari ini, Anda mungkin mengalami peningkatan penjualan hari ini tetapi efek promosi meluruh setelah beberapa hari. Tidak ada cara mudah untuk memodelkan ini menggunakan regresi berganda, Anda ingin menggunakan pemodelan fungsi transfer yang parsimonoius dan dapat menangani segala jenis efek memimpin dan lag. Lihat contoh ini yang saya posting sebelumnya, di mana ada intervensi (dalam titik harga kasus Anda) dan ada peningkatan yang tiba-tiba, diikuti oleh efek pembusukan. Karena itu jika Anda memilikipengetahuan apriori tentang efek awal dan lag, buat variabel tambahan dalam variabel dummy kasus Anda sebelum dan setelah titik harga dan (ya / tidak) perubahan promosi.
Anda juga perlu menambahkan variabel indikator Liburan yang bergerak, misalnya seperti yang ditunjukkan Irishstat bahwa Anda ingin menambahkan Paskah / Thanksgiving (di AS) yang memindahkan Liburan. Liburan yang tanggalnya sudah ditentukan akan secara otomatis dijaga jika Anda menggunakan skema pengkodean boneka untuk menangkap musiman.
Selain itu, Anda perlu mengidentifikasi pencilan seperti aditif / pulsa (peristiwa satu kali) atau pergeseran level (pergeseran permanen) dan menambahkannya sebagai regressor. Mengidentifikasi pencilan dalam regresi berganda untuk data deret waktu hampir tidak mungkin; Anda akan memerlukan metode deteksi pencilan seri waktu seperti prosedur Tsay atau prosedur Chen dan Liu yang telah dimasukkan dalam perangkat lunak seperti AUTOBOX, SPSS, SAS atau
tsoutlier
paket dalam R.Masalah Potensial:
Berikut ini adalah masalah yang akan Anda temui jika Anda memodelkan data deret waktu menggunakan regresi berganda OLS.
Dan ada banyak kelemahan menggunakan regresi berganda. Jika prediksi lebih penting bagi Anda maka saya akan bertahan setidaknya 6 bulan data dan menguji kemampuan prediksi regresi berganda Anda. Jika tujuan utama Anda adalah untuk menjelaskan korelasi antara variabel independen, maka saya akan berhati-hati menggunakan regresi berganda, dan sebagai gantinya saya akan menggunakan pendekatan deret waktu seperti ARIMAX / GLS.
Jika Anda tertarik, Anda bisa merujuk ke teks yang sangat baik oleh Pankratz , untuk fungsi transfer dan pemodelan regresi dinamis. Untuk peramalan seri waktu umum, lihat Makridakis et al . Juga, teks referensi yang baik adalah oleh Diebold untuk peramalan berdasarkan regresi dan seri waktu.
sumber
Apa yang Anda butuhkan adalah model yang akan menggabungkan efek harian, efek mingguan, efek bulanan, efek minggu dalam sebulan, efek harian, efek lead dan lag dari liburan, pergeseran level / step yang tidak ditentukan tetapi dapat diidentifikasi secara empiris, tren waktu lokal, perubahan pulsa musiman dan pulsa sambil menggabungkan struktur ARIMA dan mungkin berurusan dengan perubahan parameter dan varians kesalahan dari waktu ke waktu. Ini disebut Fungsi Transfer dan dapat dengan mudah disajikan kembali (TETAPI TIDAK SEDERHANA) sebagai Regresi Linier Berganda.
Secara khusus indikator harian akan mengambil 6 prediktor. Secara umum seseorang harus dengan hati-hati mengatur (mengidentifikasi) jenis prediksi apa yang dibutuhkan. Jika Anda memiliki banyak waktu, Anda dapat bereksperimen dengan beberapa struktur yang telah saya sebutkan. Atau Anda mungkin memerlukan beberapa perangkat lunak / konsultasi canggih untuk membuat Anda menyelesaikan masalah Anda dalam hidup Anda.
sumber