Saya sedang berupaya mengembangkan model untuk memprediksi total penjualan suatu produk. Saya memiliki sekitar satu setengah tahun data pemesanan, sehingga saya dapat melakukan analisis deret waktu standar. Namun, saya juga memiliki banyak data tentang setiap 'peluang' (penjualan potensial) yang ditutup atau hilang. 'Peluang' dikembangkan di sepanjang tahap pipa sampai ditutup atau hilang; mereka juga memiliki data terkait tentang calon pembeli, tenaga penjualan, riwayat interaksi, industri, perkiraan ukuran pemesanan, dll.
Tujuan saya pada akhirnya adalah untuk memprediksi total pemesanan, tetapi saya ingin memperhitungkan semua informasi ini tentang 'peluang' saat ini yang merupakan 'akar penyebab' sebenarnya dari pemesanan.
Satu ide yang saya miliki adalah menggunakan dua model yang berbeda secara berurutan sebagai berikut:
Gunakan 'peluang' historis untuk membangun model yang memprediksi pemesanan yang muncul dari 'peluang' individu (saya mungkin akan menggunakan hutan acak atau bahkan regresi linear lama polos untuk langkah ini).
Gunakan model dari 1 untuk memprediksi perkiraan pemesanan semua 'peluang' yang saat ini dalam pipa, kemudian jumlah perkiraan tersebut berdasarkan bulan setiap 'peluang' dibuat.
Gunakan model deret waktu (mungkin ARIMA?), Menggunakan data deret waktu historis 1,5 tahun bulanan DAN perkiraan (menggunakan model dari 1) total pemesanan untuk semua 'peluang' yang dibuat di bulan itu.
Memang akan ada kelambatan dalam peluang-peluang yang dikonversi menjadi pemesanan aktual, tetapi model deret waktu harus dapat menangani keterlambatan tersebut.
Bagaimana ini terdengar? Saya telah banyak membaca tentang deret waktu dan memprediksi penjualan, dan dari apa yang bisa saya katakan ini adalah pendekatan yang agak unik. Karena itu saya sangat menghargai umpan balik!
sumber
Jawaban:
Anda mungkin berakhir dengan model yang tampaknya sesuai dengan data Anda saat ini, OK, tetapi akan terhenti begitu Anda mencoba dan menghasilkan perkiraan out-of-sample. Pertimbangkan untuk membuat perkiraan Anda selama 6 bulan. Anda tidak memiliki cara untuk mengetahui peluang apa yang akan terjadi dalam enam bulan, jadi Anda harus membuat serangkaian model lain yang memprediksi setiap input untuk model peluang Anda. Dan, setelah Anda melakukan ini, Anda akan memiliki banyak model yang dimasukkan ke dalam model utama Anda, tetapi masing-masing model kecil akan memiliki kesalahan prediksi sendiri yang melekat padanya, dan ini akan menjadi senyawa, tetapi model utama Anda tidak akan tahu tentang ini, dan, sebagai akibatnya, semua interval prediksi Anda akan sangat dikurangi.
sumber