Saya punya pertanyaan terkait pemodelan seri waktu pendek. Ini bukan pertanyaan jika model mereka , tetapi bagaimana. Metode apa yang akan Anda rekomendasikan untuk pemodelan (sangat) seri-waktu pendek (katakanlah panjang )? Yang saya maksud dengan "terbaik" di sini adalah yang paling kuat, yang paling rentan terhadap kesalahan karena fakta jumlah pengamatan terbatas. Dengan seri pendek, pengamatan tunggal dapat memengaruhi ramalan, sehingga metode ini harus memberikan perkiraan kesalahan dan kemungkinan variabilitas yang terhubung dengan ramalan. Saya umumnya tertarik dengan deret waktu univariat tetapi juga menarik untuk mengetahui tentang metode lain.
35
Mcomp
paket untuk R), 504 memiliki 20 atau lebih sedikit pengamatan, khususnya 55% dari seri tahunan. Jadi, Anda bisa mencari publikasi asli dan melihat apa yang bekerja dengan baik untuk data tahunan. Atau bahkan gali ramalan asli yang dikirimkan ke kompetisi M3, yang tersedia dalamMcomp
paket (daftarM3Forecast
).Jawaban:
Hal ini sangat umum untuk metode peramalan sangat sederhana seperti "meramalkan rata-rata historis" mengungguli metode yang lebih kompleks. Ini bahkan lebih mungkin untuk seri waktu pendek. Ya, pada prinsipnya Anda dapat menyesuaikan model ARIMA atau bahkan yang lebih kompleks hingga 20 pengamatan atau lebih sedikit, tetapi Anda akan cenderung untuk berpakaian berlebihan dan mendapatkan perkiraan yang sangat buruk.
Jadi: mulailah dengan patokan sederhana, misalnya,
Nilai ini pada data out-of-sample. Bandingkan model yang lebih kompleks dengan tolok ukur ini. Anda mungkin terkejut melihat betapa sulitnya mengungguli metode sederhana ini. Selain itu, bandingkan kekokohan metode yang berbeda dengan yang sederhana ini, misalnya, dengan tidak hanya menilai akurasi rata -rata sampel, tetapi juga varians kesalahan , menggunakan ukuran kesalahan favorit Anda .
Ya, seperti yang ditulis oleh Rob Hyndman dalam postingannya yang dikaitkan dengan Aleksandr , pengujian di luar sampel merupakan masalah tersendiri untuk seri pendek - tetapi sebenarnya tidak ada alternatif yang baik. ( Jangan gunakan kecocokan in-sample, yang bukan panduan untuk akurasi perkiraan .) AIC tidak akan membantu Anda dengan median dan jalan acak. Namun, Anda bisa menggunakan cross-validasi seri-waktu , yang AIC kira-kira mendekati.
sumber
Saya menggunakan pertanyaan lagi sebagai kesempatan untuk belajar lebih banyak tentang rangkaian waktu - salah satu (banyak) topik yang saya minati. Setelah penelitian singkat, menurut saya ada beberapa pendekatan untuk masalah pemodelan seri waktu singkat.
Pendekatan pertama adalah dengan menggunakan model deret waktu linier / standar (AR, MA, ARMA, dll.), Tetapi untuk memperhatikan parameter tertentu, seperti yang dijelaskan dalam posting ini [1] oleh Rob Hyndman, yang tidak memerlukan pengantar dalam seri waktu dan dunia peramalan. Pendekatan kedua, disebut oleh sebagian besar literatur terkait yang telah saya lihat, menyarankan menggunakan model deret waktu non-linier , khususnya, model ambang [2], yang meliputi ambang batas model autoregresif (TAR) , TAR yang keluar sendiri ( SETAR) , threshold autoregressive moving average model (TARMA) , dan model TARMAX , yang memperluas TARmodel ke deret waktu eksogen. Sangat baik ikhtisar dari model time series non-linear, termasuk model threshold, dapat ditemukan dalam makalah ini [3] dan makalah ini [4].
Akhirnya, makalah penelitian terkait IMHO lainnya [5] menjelaskan pendekatan yang menarik, yang didasarkan pada representasi Volterra-Weiner dari sistem non-linear - lihat ini [6] dan ini [7]. Pendekatan ini dianggap lebih unggul dari teknik lain dalam konteks deret waktu pendek dan bising .
Referensi
sumber
Tidak, Tidak ada metode ekstrapolasi univariat terbaik untuk seri waktu pendek dengan seri . Metode ekstrapolasi membutuhkan banyak data.T≤20
Berikut metode kualitatif bekerja dengan baik dalam praktek untuk data yang sangat pendek atau tidak ada:
Salah satu metode terbaik yang saya tahu yang bekerja sangat baik adalah penggunaan analogi terstruktur (urutan ke-5 dalam daftar di atas) di mana Anda mencari produk serupa / analog dalam kategori yang Anda coba ramalkan dan gunakan untuk memperkirakan perkiraan jangka pendek. . Lihat artikel ini untuk contoh, dan makalah SAS tentang "bagaimana" melakukan ini menggunakan SAS saja. Satu batasan adalah bahwa peramalan dengan analogi hanya akan bekerja jika Anda memiliki analogi yang baik jika tidak, Anda dapat mengandalkan peramalan penilaian. Berikut ini adalah video lain dari perangkat lunak Forecastpro tentang cara menggunakan alat seperti Forecastpro untuk melakukan peramalan dengan analogi. Memilih analogi lebih merupakan seni daripada sains dan Anda perlu keahlian domain untuk memilih produk / situasi analog.
Dua sumber yang bagus untuk peramalan produk pendek atau baru:
Berikut ini adalah untuk tujuan ilustrasi. Saya baru saja selesai membaca Sinyal dan Kebisinganoleh Nate Silver, dalam hal itu ada contoh yang baik tentang gelembung dan prediksi pasar perumahan AS dan Jepang (analog dengan pasar AS). Dalam bagan di bawah ini jika Anda berhenti di 10 titik data dan menggunakan salah satu metode ekstrapolasi (smon / ets / arima eksponensial ...) dan lihat di mana ia membawa Anda dan ke mana sebenarnya berakhir. Sekali lagi contoh yang saya sajikan jauh lebih kompleks daripada ekstrapolasi tren sederhana. Ini hanya untuk menyoroti risiko ekstrapolasi tren menggunakan titik data yang terbatas. Selain itu jika produk Anda memiliki pola musiman, Anda harus menggunakan beberapa bentuk situasi produk analog untuk memperkirakan. Saya membaca sebuah artikel yang menurut saya dalam Journal of Business research bahwa jika Anda memiliki 13 minggu penjualan produk di bidang farmasi, Anda dapat memprediksi data dengan akurasi yang lebih besar menggunakan produk analog.
sumber
Asumsi bahwa jumlah pengamatan sangat penting berasal dari komentar tidak langsung oleh GEP Box mengenai ukuran sampel minimum untuk mengidentifikasi model. Jawaban yang lebih bernuansa sejauh yang saya ketahui adalah bahwa masalah / kualitas identifikasi model tidak hanya didasarkan pada ukuran sampel tetapi rasio sinyal terhadap noise yang ada dalam data. Jika Anda memiliki rasio signal to noise yang kuat, Anda perlu observasi lebih sedikit. Jika Anda memiliki s / n rendah maka Anda perlu lebih banyak sampel untuk mengidentifikasi. Jika kumpulan data Anda bulanan dan Anda memiliki 20 nilai, maka tidak mungkin untuk mengidentifikasi secara empiris model musiman NAMUN jika Anda berpikir bahwa data tersebut mungkin musiman maka Anda dapat memulai proses pemodelan dengan menentukan ar (12) dan kemudian melakukan diagnostik model ( tes signifikansi) untuk mengurangi atau menambah model Anda yang kurang struktural
sumber
Dengan data yang sangat terbatas, saya akan lebih cenderung menyesuaikan data menggunakan teknik Bayesian.
Stationaritas bisa sedikit rumit ketika berhadapan dengan model deret waktu Bayesian. Satu pilihan adalah untuk menegakkan batasan pada parameter. Atau, Anda tidak bisa. Ini bagus jika Anda hanya ingin melihat distribusi parameter. Namun, jika Anda ingin membuat prediksi posterior, maka Anda mungkin memiliki banyak ramalan yang meledak.
Dokumentasi Stan menyediakan beberapa contoh di mana mereka menempatkan kendala pada parameter model deret waktu untuk memastikan stationarity. Ini dimungkinkan untuk model yang relatif sederhana yang mereka gunakan, tetapi bisa jadi sangat tidak mungkin dalam model deret waktu yang lebih rumit. Jika Anda benar-benar ingin menegakkan stasioneritas, Anda bisa menggunakan algoritma Metropolis-Hastings dan membuang semua koefisien yang tidak patut. Namun, ini membutuhkan banyak nilai eigen untuk dihitung, yang akan memperlambat segalanya.
sumber
Masalahnya seperti yang Anda tunjukkan dengan bijaksana adalah "overfitting" yang disebabkan oleh prosedur berbasis daftar yang sudah diperbaiki. Cara yang cerdas adalah mencoba dan menjaga persamaan sederhana ketika Anda memiliki jumlah data yang dapat diabaikan. Saya telah menemukan setelah banyak bulan bahwa jika Anda cukup menggunakan model AR (1) dan meninggalkan tingkat adaptasi (koefisien ar) ke data hal-hal dapat bekerja dengan cukup baik. Sebagai contoh jika estimasi koefisien ar mendekati nol, ini berarti bahwa rata-rata keseluruhan akan sesuai. jika koefisien mendekati +1.0 maka ini berarti bahwa nilai terakhir (disesuaikan untuk konstanta lebih tepat. Jika koefisien mendekati -1.0 maka negatif dari nilai terakhir (disesuaikan untuk konstan) akan menjadi perkiraan terbaik. Jika koefisiennya sebaliknya, itu berarti bahwa rata-rata tertimbang dari masa lalu baru-baru ini sesuai.
Inilah tepatnya yang dimulai dengan AUTOBOX dan kemudian buang anomali saat ia menyesuaikan parameter yang diperkirakan saat "# pengamatan kecil" ditemukan.
Ini adalah contoh dari "seni ramalan" ketika pendekatan yang didorong data murni mungkin tidak dapat diterapkan.
Berikut ini adalah model otomatis yang dikembangkan untuk 12 titik data tanpa memperhatikan anomali. dengan Aktual / Fit dan Prakiraan di sini dan plot sisa di sini
sumber