Interpretasi dari kesalahan skala absolut rata-rata (MASE)

Mean absolute scaled error (MASE) adalah ukuran akurasi perkiraan yang diajukan oleh Koehler & Hyndman (2006) .

M. SEBUAH S E = \frac{M. SEBUAH E}{M. SEBUAH E_{saya n - s Sebuah m hal l e, n Sebuah saya v e}}

$MASE=\frac{MAE}{MAE_{in-sample, \, naive}}$

di mana adalah kesalahan absolut rata-rata yang dihasilkan oleh perkiraan aktual; sementara adalah kesalahan absolut rata-rata yang dihasilkan oleh ramalan naif (mis. ramalan tanpa perubahan untuk rangkaian waktu terintegrasi ), dihitung pada data dalam sampel. $MAE$
$MAE_{in-sample, \, naive}$ $I(1)$

(Lihat kertas Koehler & Hyndman (2006) untuk definisi dan formula yang tepat.)

$MASE>1$ menyiratkan bahwa perkiraan aktual lebih buruk dari sampel daripada perkiraan naif dalam sampel, dalam hal kesalahan absolut rata-rata. Jadi, jika kesalahan absolut rata-rata adalah ukuran yang relevan dari akurasi perkiraan (yang tergantung pada masalah yang dihadapi), menunjukkan bahwa perkiraan aktual harus dibuang demi perkiraan yang naif jika kita mengharapkan data out-of-sample untuk cukup seperti data dalam sampel (karena kita hanya tahu seberapa baik perkiraan naif dilakukan dalam sampel, bukan di luar sampel). $MASE>1$

Pertanyaan:

$MASE=1.38$ digunakan sebagai tolok ukur dalam kompetisi peramalan yang diajukan dalam posting blog Hyndsight ini . Bukankah tolok ukur yang jelas adalah ? $MASE=1$

Tentu saja, pertanyaan ini tidak spesifik untuk kompetisi peramalan tertentu. Saya ingin bantuan untuk memahami hal ini dalam konteks yang lebih umum.

Tebakanku:

Satu-satunya penjelasan yang masuk akal yang saya lihat adalah bahwa perkiraan naif diharapkan untuk melakukan sampel yang jauh lebih buruk daripada dalam sampel, misalnya karena perubahan struktural. Maka mungkin terlalu sulit untuk dicapai. $MASE<1$

Referensi:

Hyndman, Rob J., dan Anne B. Koehler. " Lain melihat ukuran akurasi ramalan. " Jurnal Internasional peramalan 22,4 (2006): 679-688.
Posting blog Hyndsight .

time-series forecasting accuracy mase Richard Hardy
sumber

Dalam posting blognya, Rob mencatat dari mana tolok ukur ini berasal: "Ambang ini adalah metode dengan kinerja terbaik dalam analisis data yang dijelaskan dalam Athanasopoulos et al (2010)." Sudahkah Anda melihat kertas Athanosopoulos?

S. Kolassa - Reinstate Monica

Saya agak bingung dengan "tebakan Anda": perubahan struktural akan berarti bahwa ramalan canggih akan didasarkan pada data masa lalu yang sebagian tidak relevan, memang. Tetapi bagaimana penembusan struktural akan mempengaruhi perkiraan "tidak ada perubahan" tergantung pada penembusan. Jika misalnya kita melihat jalan acak dengan drift, dan penembusan struktural berarti bahwa drift, istilah konstan, semakin rendah , maka ramalan "tidak ada perubahan" akan berkinerja lebih baik setelah istirahat, daripada sebelumnya.

Alecos Papadopoulos

@AlecosPapadopoulos: Anda benar. Namun, saya berarti out-of-data sampel yang cukup berbeda dari di-sample-data sebagai diperlukan, tetapi bukan kondisi yang cukup untuk mengharapkan

. Mungkin saya tidak mengekspresikan diri dengan benar.

M A S E >> 1

$MASE>>1$

Richard Hardy

@StephanKolassa: Saya membaca sekilas kertas dan tidak menemukan penjelasan yang baik. Mungkin saya harus membacanya dengan lebih cermat. Tetapi pertanyaan saya dimaksudkan untuk menjadi lebih umum dari itu. Saya tidak terlalu tertarik dengan contoh itu, saya hanya menyajikannya sebagai contoh. Saya mencari intuisi tentang

M A S E

$MASE$

Richard Hardy

Terkait: stats.stackexchange.com/questions/124955/...

S. Kolassa - Reinstate Monica

Jawaban:

Dalam posting blog tertaut , Rob Hyndman meminta entri untuk kompetisi peramalan pariwisata. Pada dasarnya, posting blog berfungsi untuk menarik perhatian pada artikel IJF yang relevan , versi ungated yang terhubung ke dalam posting blog.

Benchmark yang Anda lihat - 1,38 untuk bulanan, 1,43 untuk kuartalan dan 2,28 untuk data tahunan - tampaknya sampai pada sebagai berikut. Para penulis (semuanya adalah peramal ahli dan sangat aktif dalam IIF - tidak ada penjual minyak ular di sini) cukup mampu menerapkan algoritme peramalan standar atau perangkat lunak peramalan, dan mereka mungkin tidak tertarik dengan pengajuan ARIMA sederhana. Jadi mereka pergi dan menerapkan beberapa metode standar pada data mereka. Agar pengajuan yang menang diundang untuk makalah di IJF , mereka meminta agar hal itu meningkatkan yang terbaik dari metode standar ini, sebagaimana diukur oleh MASE.

Jadi pertanyaan Anda pada dasarnya bermuara pada:

Mengingat bahwa MASE 1 sesuai dengan perkiraan yang di luar sampel sama baiknya (dengan MAD) seperti perkiraan jalan acak yang naif dalam sampel, mengapa metode peramalan standar seperti ARIMA tidak meningkat pada 1,38 untuk data bulanan?

Di sini, 1,38 MASE berasal dari Tabel 4 dalam versi ungated. Ini adalah ASE rata-rata lebih dari 1-24 bulan ke depan perkiraan dari ARIMA. Metode standar lainnya, seperti ForecastPro, ETS dll. Berperforma lebih buruk.

$\exp(t)$ dengan metode standar. Tidak satu pun dari ini akan menangkap tren percepatan (dan ini biasanya Good Thing - jika algoritme prakiraan Anda sering memodelkan tren percepatan, Anda mungkin akan jauh melampaui tanda Anda), dan mereka akan menghasilkan MASE yang di atas 1. Penjelasan lain bisa , seperti yang Anda katakan, menjadi penahan struktural yang berbeda, misalnya, perubahan level atau pengaruh eksternal seperti SARS atau 9/11, yang tidak akan ditangkap oleh model benchmark non-kausal, tetapi yang dapat dimodelkan dengan metode peramalan pariwisata khusus (walaupun menggunakan kausal masa depan dalam sampel ketidaksepakatan adalah semacam kecurangan).

Jadi saya akan mengatakan bahwa Anda mungkin tidak bisa mengatakan banyak tentang ini, hanya dengan melihat data sendiri. Mereka tersedia di Kaggle. Taruhan terbaik Anda kemungkinan akan mengambil seri 518 ini, bertahan 24 bulan terakhir, muat seri ARIMA, menghitung MASE, menggali sepuluh atau dua puluh seri perkiraan terburuk MASE, dapatkan sepoci besar kopi, lihat seri ini dan coba untuk mencari tahu apa yang membuat model ARIMA sangat buruk dalam meramalkannya.

EDIT: titik lain yang tampak jelas setelah fakta tetapi saya butuh lima hari untuk melihat - ingat bahwa penyebut MASE adalah satu langkah di depan ramalan berjalan acak dalam sampel, sedangkan pembilangnya adalah rata-rata 1-24- perkiraan langkah maju . Tidak terlalu mengejutkan bahwa ramalan memburuk dengan meningkatnya cakrawala, jadi ini mungkin alasan lain untuk MASE 1,38. Perhatikan bahwa ramalan Musiman Naif juga termasuk dalam tolok ukur dan memiliki MASE yang bahkan lebih tinggi.

S. Kolassa - Reinstate Monica
sumber

Jawaban bagus! Terima kasih atas ringkasan singkat dari makalah asli (ini akan berfungsi sebagai jalan pintas yang bermanfaat bagi semua yang belum tahu). Tampaknya ide utama di balik jawaban Anda tidak bertentangan dengan dugaan saya (tetapi meluasnya); ada sesuatu yang istimewa dari sampel yang diremehkan oleh kesalahan perkiraan naif dalam sampel.

Richard Hardy

Bukan jawaban, tapi plot mengikuti panggilan Stephan Kolassa untuk "melihat seri ini".
Kaggle tourism1 memiliki seri waktu 518 tahunan, yang ingin kami perkirakan 4 nilai terakhir:

masukkan deskripsi gambar di sini

$5^{th}$
$\qquad Error4( y ) \equiv {1 \over 4} \sum_ {last\ 4} |y_i - y_{-5}|$
$Error4(y)$ $length(y)$

Jelas, seri yang sangat pendek - 12 11 7 7 7 ... di baris atas - sulit diprediksi: tidak mengejutkan.
(Athanasopoulos, Hyndman, Song and Wu, Kompetisi Peramalan Pariwisata (2011, 23p) menggunakan 112 dari seri 518 tahunan, tetapi saya tidak melihat yang mana.)

Apakah ada koleksi seri waktu yang lebih baru sejak 2010, yang mungkin layak untuk dilihat?

denis
sumber

Terima kasih! Saya tidak tahu jawaban untuk pertanyaan terakhir Anda.

Richard Hardy

@denis: baru saja melihat pertanyaan Anda - Anda mungkin ingin meminta data di OpenData.SE .

S. Kolassa - Reinstate Monica