Misalkan saya memiliki lebih dari 20.000 seri waktu bulanan mulai dari Jan'05 hingga Dec'11. Masing-masing mewakili data penjualan global untuk produk yang berbeda. Bagaimana jika, alih-alih menghitung perkiraan untuk masing-masing, saya hanya ingin fokus pada sejumlah kecil produk yang "benar-benar penting"?
Saya bisa memberi peringkat produk-produk tersebut dengan total pendapatan tahunan dan memangkas daftar menggunakan Pareto klasik. Masih nampak bagi saya bahwa, meskipun mereka tidak berkontribusi banyak pada bottom line, beberapa produk sangat mudah untuk diramalkan sehingga meninggalkan mereka akan menjadi penilaian yang buruk. Sebuah produk yang dijual senilai $ 50 setiap bulan selama 10 tahun terakhir mungkin tidak terdengar banyak, tetapi membutuhkan sedikit usaha untuk menghasilkan prediksi tentang penjualan di masa depan sehingga saya mungkin juga melakukannya.
Jadi katakanlah saya membagi produk saya dalam empat kategori: pendapatan tinggi / mudah diperkirakan - pendapatan rendah / mudah diperkirakan - pendapatan tinggi / sulit diperkirakan - pendapatan rendah / sulit diperkirakan.
Saya pikir akan masuk akal untuk meninggalkan hanya seri waktu milik kelompok keempat. Tetapi bagaimana tepatnya saya bisa mengevaluasi "perkiraan"?
Koefisien variasi sepertinya merupakan titik awal yang baik (saya juga ingat pernah melihat beberapa makalah tentang itu beberapa waktu yang lalu). Tetapi bagaimana jika seri waktu saya menunjukkan perubahan musiman / level / efek kalender / tren yang kuat?
Saya akan membayangkan saya harus mendasarkan evaluasi saya hanya pada variabilitas komponen acak dan bukan salah satu dari data "mentah". Atau apakah saya melewatkan sesuatu?
Adakah yang pernah menemukan masalah serupa sebelumnya? Bagaimana kalian akan melakukannya?
Seperti biasa, bantuan apa pun sangat dihargai!
Ini adalah masalah yang cukup umum dalam peramalan. Solusi tradisional adalah untuk menghitung kesalahan persentase absolut rata-rata (MAPE) pada setiap item. Semakin rendah MAPE, semakin mudah diprediksi.
Satu masalah dengan itu banyak seri mengandung nilai nol dan kemudian MAPE tidak terdefinisi.
Saya mengusulkan solusi di Hyndman dan Koehler (IJF 2006) [versi pracetak ] menggunakan rata-rata skala kesalahan absolut (MASE). Untuk deret waktu bulanan, penskalaan akan didasarkan pada perkiraan naif musiman yang ada dalam sampel. Yaitu jika adalah pengamatan pada waktu , data tersedia dari waktu 1 hingga dan maka kesalahan skala adalah , di mana adalah perkiraan menggunakan metode peramalan apa pun yang Anda terapkan untuk item itu. Ambil nilai absolut rata-rata dari kesalahan yang diskalakan untuk mendapatkan MASE. Misalnya, Anda dapat menggunakan asal bergulir (aliasyt t T Q=1T−12∑t=13T|yt−yt−12|, qt=(yt−y^t)/Q y tythy^t yt validasi silang seri waktu ) dan ambil nilai absolut rata-rata dari kesalahan satu langkah (atau -langkah) yang dihasilkan .h
Seri yang mudah diprediksi harus memiliki nilai MASE yang rendah. Di sini "mudah diperkirakan" ditafsirkan relatif terhadap perkiraan naif musiman. Dalam beberapa keadaan, mungkin lebih masuk akal untuk menggunakan ukuran dasar alternatif untuk mengukur hasilnya.
sumber
Anda mungkin tertarik dengan ForeCA: Analisis Komponen yang Dapat Diprediksi (disclaimer: Saya penulisnya). Seperti namanya, ini adalah teknik reduksi dimensi / pemisahan sumber buta (BSS) untuk menemukan sinyal yang paling dapat diprediksi dari banyak seri waktu multivarian - lebih atau kurang stasioner - waktu. Untuk kasus khusus Anda dari 20.000 seri waktu, mungkin bukan hal tercepat untuk dilakukan (solusinya melibatkan spektrum daya multivarian dan berulang, pembaruan analitik dari penimbang bobot terbaik; lebih lanjut saya kira ini mungkin akan menjadi masalah .)p≫n
Ada juga paket R ForeCA yang tersedia di CRAN (sekali lagi: Saya penulis) yang mengimplementasikan fungsionalitas dasar; sekarang ini mendukung fungsionalitas untuk memperkirakan ukuran prakiraan untuk deret waktu univariat dan ia memiliki beberapa fungsi pembungkus yang baik untuk spektrum multivarian (lagi-lagi deret waktu 20.000 mungkin terlalu banyak untuk ditangani sekaligus).Ω(xt)
Tetapi mungkin Anda dapat mencoba menggunakan ukuran MASE yang diusulkan oleh Rob untuk membuat pemisahan grid kasar dari 20.000 dalam beberapa sub-kelompok dan kemudian menerapkan ForeCA untuk masing-masing secara terpisah.
sumber
Jawaban ini sangat terlambat, tetapi bagi mereka yang masih mencari ukuran perkiraan yang tepat untuk seri waktu permintaan produk, saya sangat menyarankan untuk melihat perkiraan entropi .
Permintaan produk cenderung memiliki komponen musiman yang sangat kuat, membuat koefisien variasi (CV) tidak sesuai. ApEn (m, r) dapat menangani ini dengan benar. Dalam kasus saya, karena data saya cenderung memiliki musiman mingguan yang kuat, saya menetapkan parameter m = 7 dan r = 0,2 * std seperti yang direkomendasikan di sini .
sumber