Metode terbaik untuk seri waktu pendek

35

Saya punya pertanyaan terkait pemodelan seri waktu pendek. Ini bukan pertanyaan jika model mereka , tetapi bagaimana. Metode apa yang akan Anda rekomendasikan untuk pemodelan (sangat) seri-waktu pendek (katakanlah panjang )? Yang saya maksud dengan "terbaik" di sini adalah yang paling kuat, yang paling rentan terhadap kesalahan karena fakta jumlah pengamatan terbatas. Dengan seri pendek, pengamatan tunggal dapat memengaruhi ramalan, sehingga metode ini harus memberikan perkiraan kesalahan dan kemungkinan variabilitas yang terhubung dengan ramalan. Saya umumnya tertarik dengan deret waktu univariat tetapi juga menarik untuk mengetahui tentang metode lain.T20

Tim
sumber
Apa satuan waktu? Bisakah Anda memposting data?
Dimitriy V. Masterov
8
Asumsi apa pun yang Anda buat - mengenai musiman, stasioner, & c. - serangkaian waktu singkat akan memberi Anda kesempatan untuk mendeteksi hanya pelanggaran yang paling mencolok; jadi asumsi harus beralasan dalam pengetahuan domain. Apakah Anda perlu membuat model atau hanya membuat perkiraan? Kompetisi M3 membandingkan berbagai metode peramalan "otomatis" pada serangkaian dari berbagai domain, beberapa sesingkat 20.
Scortchi - Reinstate Monica
5
+1 ke komentar @ Scortchi. Secara kebetulan, dari 3.003 seri M3 (tersedia dalam Mcomppaket untuk R), 504 memiliki 20 atau lebih sedikit pengamatan, khususnya 55% dari seri tahunan. Jadi, Anda bisa mencari publikasi asli dan melihat apa yang bekerja dengan baik untuk data tahunan. Atau bahkan gali ramalan asli yang dikirimkan ke kompetisi M3, yang tersedia dalam Mcomppaket (daftar M3Forecast).
S. Kolassa - Reinstate Monica
Hai, saya tidak akan menambahkan apa pun pada jawabannya, tetapi hanya membagikan sesuatu tentang pertanyaan yang saya harap dapat membantu orang lain memahami masalah di sini: ketika Anda mengatakan yang kuat, itu adalah yang paling tidak rentan terhadap kesalahan karena fakta terbatas jumlah pengamatan . Saya percaya ketahanan adalah konsep penting dalam statistik dan di sini sangat penting karena memiliki begitu sedikit data yang cocok untuk pemodelan akan sangat bergantung pada asumsi model itu sendiri atau outlier. Dengan kekokohan Anda membuat batasan ini kurang kuat, tidak membiarkan asumsi membatasi hasil Anda. Saya harap ini membantu.
Tommaso Guerrini
2
@TommasoGuerrini metode yang kuat tidak membuat asumsi lebih sedikit, mereka membuat asumsi yang berbeda.
Tim

Jawaban:

31

Hal ini sangat umum untuk metode peramalan sangat sederhana seperti "meramalkan rata-rata historis" mengungguli metode yang lebih kompleks. Ini bahkan lebih mungkin untuk seri waktu pendek. Ya, pada prinsipnya Anda dapat menyesuaikan model ARIMA atau bahkan yang lebih kompleks hingga 20 pengamatan atau lebih sedikit, tetapi Anda akan cenderung untuk berpakaian berlebihan dan mendapatkan perkiraan yang sangat buruk.

Jadi: mulailah dengan patokan sederhana, misalnya,

  • artinya historis
  • median sejarah untuk menambah kekokohan
  • jalan acak (perkiraan pengamatan terakhir)

Nilai ini pada data out-of-sample. Bandingkan model yang lebih kompleks dengan tolok ukur ini. Anda mungkin terkejut melihat betapa sulitnya mengungguli metode sederhana ini. Selain itu, bandingkan kekokohan metode yang berbeda dengan yang sederhana ini, misalnya, dengan tidak hanya menilai akurasi rata -rata sampel, tetapi juga varians kesalahan , menggunakan ukuran kesalahan favorit Anda .

Ya, seperti yang ditulis oleh Rob Hyndman dalam postingannya yang dikaitkan dengan Aleksandr , pengujian di luar sampel merupakan masalah tersendiri untuk seri pendek - tetapi sebenarnya tidak ada alternatif yang baik. ( Jangan gunakan kecocokan in-sample, yang bukan panduan untuk akurasi perkiraan .) AIC tidak akan membantu Anda dengan median dan jalan acak. Namun, Anda bisa menggunakan cross-validasi seri-waktu , yang AIC kira-kira mendekati.

S. Kolassa - Reinstate Monica
sumber
Baru saja menemukan jawaban Anda (+1). Saya membuat komentar lain, jika Anda tertarik dan ingin mengklarifikasi.
Aleksandr Blekh
17

Saya menggunakan pertanyaan lagi sebagai kesempatan untuk belajar lebih banyak tentang rangkaian waktu - salah satu (banyak) topik yang saya minati. Setelah penelitian singkat, menurut saya ada beberapa pendekatan untuk masalah pemodelan seri waktu singkat.

Pendekatan pertama adalah dengan menggunakan model deret waktu linier / standar (AR, MA, ARMA, dll.), Tetapi untuk memperhatikan parameter tertentu, seperti yang dijelaskan dalam posting ini [1] oleh Rob Hyndman, yang tidak memerlukan pengantar dalam seri waktu dan dunia peramalan. Pendekatan kedua, disebut oleh sebagian besar literatur terkait yang telah saya lihat, menyarankan menggunakan model deret waktu non-linier , khususnya, model ambang [2], yang meliputi ambang batas model autoregresif (TAR) , TAR yang keluar sendiri ( SETAR) , threshold autoregressive moving average model (TARMA) , dan model TARMAX , yang memperluas TARmodel ke deret waktu eksogen. Sangat baik ikhtisar dari model time series non-linear, termasuk model threshold, dapat ditemukan dalam makalah ini [3] dan makalah ini [4].

Akhirnya, makalah penelitian terkait IMHO lainnya [5] menjelaskan pendekatan yang menarik, yang didasarkan pada representasi Volterra-Weiner dari sistem non-linear - lihat ini [6] dan ini [7]. Pendekatan ini dianggap lebih unggul dari teknik lain dalam konteks deret waktu pendek dan bising .

Referensi

  1. Hyndman, R. (4 Maret 2014). Memasang model ke seri waktu singkat. [Posting blog]. Diperoleh dari http://robjhyndman.com/hyndsight/short-time-series
  2. Universitas Negeri Pennsylvania. (2015). Model ambang batas. [Materi kursus online]. STAT 510, Analisis Rangkaian Waktu Terapan. Diperoleh dari https://onlinecourses.science.psu.edu/stat510/node/82
  3. Zivot, E. (2006). Model deret waktu non-linear. [Catatan kelas]. ECON 584, Timeon Econometrics. Universitas Washington. Diperoleh dari http://faculty.washington.edu/ezivot/econ584/notes/nonlinear.pdf
  4. Chen, CWS, So, MKP, & Liu, F.-C. (2011). Tinjauan model ambang batas waktu di bidang keuangan. Statistik dan Antarmuka, 4 , 167–181. Diperoleh dari http://intlpress.com/site/pub/files/_fulltext/journals/sii/2011/0004/0002/SII-2011-0004-0002-a012.pdf
  5. Barahona, M., & Poon, C.-S. (1996). Deteksi dinamika nonlinear dari deret waktu pendek dan bising. Alam, 381 , 215-217. Diperoleh dari http://www.bg.ic.ac.uk/research/m.barahona/nonlin_detec_nature.PDF
  6. Franz, MO (2011). Seri Volterra dan Wiener. Scholarpedia, 6 (10): 11307. Diperoleh dari http://www.scholarpedia.org/article/Volterra_and_Wiener_series
  7. Franz, MO, & Scholkopf, B. (nd). Pandangan pemersatu teori Wiener dan Volterra dan regresi kernel polinomial. Diperoleh dari http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/nc05_%5B0%5D.pdf
Aleksandr Blekh
sumber
4
+1 Maukah Anda menuliskan referensi untuk makalah ini dalam jawaban Anda? Kami telah menemukan baru-baru ini bahwa banyak tautan ke kertas membusuk setelah beberapa saat, akhirnya membuatnya hampir tidak berguna kecuali penulis makalah, judul, dll. Juga disebutkan dalam teks.
Whuber
2
@whuber: Terima kasih. Tidak masalah sama sekali, saya akan memperbarui jawaban saya dengan referensi malam ini.
Aleksandr Blekh
2
+1 untuk tautan ke pos Rob Hyndman. (Namun, saya tergoda untuk -1 untuk model yang kompleks. Saya akan sangat berhati-hati dalam menggunakan ambang batas atau metode deret waktu nonlinear lainnya pada deret waktu kurang dari 20 pengamatan. Anda hampir pasti mengenakan pakaian berlebih, yang langsung berlawanan dengan persyaratan OP tentang metode yang kuat .)
S. Kolassa - Reinstate Monica
3
[2,3,4] tidak menyebutkan deret waktu singkat, dan lihat plot di [2]:> 120 pengamatan. [4] berkonsentrasi pada keuangan, di mana Anda memiliki lebih dari 20 pengamatan. [5] menulis tentang "deret waktu singkat, biasanya panjang 1.000 poin" (hlm. 216). Saya melihat tidak ada cara untuk secara andal dan kuat menyesuaikan TAR atau model serupa, atau salah satu yang lebih rumit yang Anda tautkan, dengan <20 pengamatan. (BTW: Saya juga melakukan beberapa statistik inferensial di samping, dan dengan kurang dari 20 pengamatan, Anda benar-benar tidak dapat memperkirakan lebih dari rata-rata dan satu parameter lagi.)
S. Kolassa - Reinstate Monica
5
Sama-sama ;-) Saya kira kesimpulannya adalah "pendek" sangat tergantung pada konteks: untuk seri pembacaan sensor atau keuangan, 1000 titik data "pendek" - tetapi dalam manajemen rantai pasokan, 20 pengamatan bulanan hampir normal , dan "pendek" hanya akan dimulai pada 12 pengamatan atau kurang.
S. Kolassa - Reinstate Monica
11

Tidak, Tidak ada metode ekstrapolasi univariat terbaik untuk seri waktu pendek dengan seri . Metode ekstrapolasi membutuhkan banyak data.T20

Berikut metode kualitatif bekerja dengan baik dalam praktek untuk data yang sangat pendek atau tidak ada:

  • Perkiraan komposit
  • Survei
  • Metode delphi
  • Pembuatan skenario
  • Ramalan dengan analogi
  • Pendapat eksekutif

Salah satu metode terbaik yang saya tahu yang bekerja sangat baik adalah penggunaan analogi terstruktur (urutan ke-5 dalam daftar di atas) di mana Anda mencari produk serupa / analog dalam kategori yang Anda coba ramalkan dan gunakan untuk memperkirakan perkiraan jangka pendek. . Lihat artikel ini untuk contoh, dan makalah SAS tentang "bagaimana" melakukan ini menggunakan SAS saja. Satu batasan adalah bahwa peramalan dengan analogi hanya akan bekerja jika Anda memiliki analogi yang baik jika tidak, Anda dapat mengandalkan peramalan penilaian. Berikut ini adalah video lain dari perangkat lunak Forecastpro tentang cara menggunakan alat seperti Forecastpro untuk melakukan peramalan dengan analogi. Memilih analogi lebih merupakan seni daripada sains dan Anda perlu keahlian domain untuk memilih produk / situasi analog.

Dua sumber yang bagus untuk peramalan produk pendek atau baru:

  • Prinsip Peramalan oleh Armstrong
  • Peramalan Produk Baru oleh Kahn

Berikut ini adalah untuk tujuan ilustrasi. Saya baru saja selesai membaca Sinyal dan Kebisinganoleh Nate Silver, dalam hal itu ada contoh yang baik tentang gelembung dan prediksi pasar perumahan AS dan Jepang (analog dengan pasar AS). Dalam bagan di bawah ini jika Anda berhenti di 10 titik data dan menggunakan salah satu metode ekstrapolasi (smon / ets / arima eksponensial ...) dan lihat di mana ia membawa Anda dan ke mana sebenarnya berakhir. Sekali lagi contoh yang saya sajikan jauh lebih kompleks daripada ekstrapolasi tren sederhana. Ini hanya untuk menyoroti risiko ekstrapolasi tren menggunakan titik data yang terbatas. Selain itu jika produk Anda memiliki pola musiman, Anda harus menggunakan beberapa bentuk situasi produk analog untuk memperkirakan. Saya membaca sebuah artikel yang menurut saya dalam Journal of Business research bahwa jika Anda memiliki 13 minggu penjualan produk di bidang farmasi, Anda dapat memprediksi data dengan akurasi yang lebih besar menggunakan produk analog.

masukkan deskripsi gambar di sini

peramal cuaca
sumber
Terima kasih telah menunjukkan pendekatan yang berbeda! Dan saya setuju, buku Nate Silvers hebat.
Tim
5

Asumsi bahwa jumlah pengamatan sangat penting berasal dari komentar tidak langsung oleh GEP Box mengenai ukuran sampel minimum untuk mengidentifikasi model. Jawaban yang lebih bernuansa sejauh yang saya ketahui adalah bahwa masalah / kualitas identifikasi model tidak hanya didasarkan pada ukuran sampel tetapi rasio sinyal terhadap noise yang ada dalam data. Jika Anda memiliki rasio signal to noise yang kuat, Anda perlu observasi lebih sedikit. Jika Anda memiliki s / n rendah maka Anda perlu lebih banyak sampel untuk mengidentifikasi. Jika kumpulan data Anda bulanan dan Anda memiliki 20 nilai, maka tidak mungkin untuk mengidentifikasi secara empiris model musiman NAMUN jika Anda berpikir bahwa data tersebut mungkin musiman maka Anda dapat memulai proses pemodelan dengan menentukan ar (12) dan kemudian melakukan diagnostik model ( tes signifikansi) untuk mengurangi atau menambah model Anda yang kurang struktural

IrishStat
sumber
5

Dengan data yang sangat terbatas, saya akan lebih cenderung menyesuaikan data menggunakan teknik Bayesian.

Stationaritas bisa sedikit rumit ketika berhadapan dengan model deret waktu Bayesian. Satu pilihan adalah untuk menegakkan batasan pada parameter. Atau, Anda tidak bisa. Ini bagus jika Anda hanya ingin melihat distribusi parameter. Namun, jika Anda ingin membuat prediksi posterior, maka Anda mungkin memiliki banyak ramalan yang meledak.

Dokumentasi Stan menyediakan beberapa contoh di mana mereka menempatkan kendala pada parameter model deret waktu untuk memastikan stationarity. Ini dimungkinkan untuk model yang relatif sederhana yang mereka gunakan, tetapi bisa jadi sangat tidak mungkin dalam model deret waktu yang lebih rumit. Jika Anda benar-benar ingin menegakkan stasioneritas, Anda bisa menggunakan algoritma Metropolis-Hastings dan membuang semua koefisien yang tidak patut. Namun, ini membutuhkan banyak nilai eigen untuk dihitung, yang akan memperlambat segalanya.

John
sumber
0

Masalahnya seperti yang Anda tunjukkan dengan bijaksana adalah "overfitting" yang disebabkan oleh prosedur berbasis daftar yang sudah diperbaiki. Cara yang cerdas adalah mencoba dan menjaga persamaan sederhana ketika Anda memiliki jumlah data yang dapat diabaikan. Saya telah menemukan setelah banyak bulan bahwa jika Anda cukup menggunakan model AR (1) dan meninggalkan tingkat adaptasi (koefisien ar) ke data hal-hal dapat bekerja dengan cukup baik. Sebagai contoh jika estimasi koefisien ar mendekati nol, ini berarti bahwa rata-rata keseluruhan akan sesuai. jika koefisien mendekati +1.0 maka ini berarti bahwa nilai terakhir (disesuaikan untuk konstanta lebih tepat. Jika koefisien mendekati -1.0 maka negatif dari nilai terakhir (disesuaikan untuk konstan) akan menjadi perkiraan terbaik. Jika koefisiennya sebaliknya, itu berarti bahwa rata-rata tertimbang dari masa lalu baru-baru ini sesuai.

Inilah tepatnya yang dimulai dengan AUTOBOX dan kemudian buang anomali saat ia menyesuaikan parameter yang diperkirakan saat "# pengamatan kecil" ditemukan.

Ini adalah contoh dari "seni ramalan" ketika pendekatan yang didorong data murni mungkin tidak dapat diterapkan.

Berikut ini adalah model otomatis yang dikembangkan untuk 12 titik data tanpa memperhatikan anomali. masukkan deskripsi gambar di sinidengan Aktual / Fit dan Prakiraan di sini masukkan deskripsi gambar di sinidan plot sisa di sinimasukkan deskripsi gambar di sini

IrishStat
sumber