Apa kekurangan dari kesalahan persentase absolut rata-rata (MAPE)?

29

The Mean Absolute Error ( ) adalah akurasi umum atau ukuran kesalahan untuk seri waktu atau prediksi lainnya,

PETA=100nt=1n|SEBUAHt-Ft|SEBUAHt%,

di mana adalah aktual dan sesuai perkiraan atau prediksi.F tSEBUAHtFt

MAPE adalah persentase, jadi kami dapat dengan mudah membandingkannya di antara seri, dan orang-orang dapat dengan mudah memahami dan menafsirkan persentase.

Namun, saya mendengar bahwa MAPE memiliki kekurangan. Saya ingin memahami kelemahan ini dengan lebih baik sehingga saya dapat membuat keputusan berdasarkan informasi apakah akan menggunakan MAPE atau beberapa alternatif seperti MSE ( ), MAE ( ) atau MASE ( ).

S. Kolassa - Reinstate Monica
sumber

Jawaban:

45

Kekurangan MAPE

  • MAPE, sebagai persentase, hanya masuk akal untuk nilai-nilai di mana pembagian dan rasio masuk akal. Misalnya, tidak masuk akal untuk menghitung persentase suhu, jadi Anda sebaiknya tidak menggunakan MAPE untuk menghitung akurasi perkiraan suhu.

  • Jika hanya satu aktual yang nol, , maka Anda membaginya dengan nol dalam menghitung MAPE, yang tidak terdefinisi.SEBUAHt=0

    Ternyata beberapa perangkat lunak peramalan melaporkan MAPE untuk seri tersebut, hanya dengan menjatuhkan periode dengan nol aktual ( Hoover, 2006 ). Tidak perlu dikatakan, ini bukan ide yang baik, karena ini menyiratkan bahwa kami tidak peduli sama sekali tentang apa yang kami jika yang sebenarnya adalah nol - tetapi perkiraan dan salah satu mungkin memiliki implikasi yang sangat berbeda . Jadi, periksa apa yang dilakukan perangkat lunak Anda.Ft=100Ft=1000

    Jika hanya beberapa nol yang terjadi, Anda dapat menggunakan MAPE tertimbang ( Kolassa & Schütz, 2007 ), yang memiliki masalah sendiri. Ini juga berlaku untuk MAPE simetris ( Goodwin & Lawton, 1999 ).

  • MAPE yang lebih besar dari 100% dapat terjadi. Jika Anda lebih suka bekerja dengan keakuratan, yang sebagian orang definisikan sebagai 100% -MAPE, maka hal ini dapat menyebabkan akurasi negatif, yang mungkin sulit dipahami orang. ( Tidak, memotong akurasi pada nol bukanlah ide yang baik. )

  • Jika kami memiliki data positif yang ingin kami ramalkan (dan di atas, MAPE tidak masuk akal sebaliknya), maka kami tidak akan pernah meramalkan di bawah nol. Sayangnya MAPE memperlakukan overforecast secara berbeda dari underforecast: underforecast tidak akan pernah berkontribusi lebih dari 100% (misalnya, jika dan ), tetapi kontribusi overforecast tidak dibatasi (misalnya, jika dan ). Ini berarti bahwa MAPE mungkin lebih rendah untuk bias daripada untuk perkiraan yang tidak bias. Meminimalkannya dapat menyebabkan perkiraan yang bias rendah.Ft=0SEBUAHt=1Ft=5SEBUAHt=1

Terutama poin-poin terakhir perlu lebih banyak pemikiran. Untuk ini, kita harus mengambil langkah mundur.

Untuk mulai dengan, perhatikan bahwa kita tidak tahu hasil di masa depan dengan sempurna, juga tidak akan pernah. Jadi hasil di masa depan mengikuti distribusi probabilitas. Perkiraan titik yang kami sebut adalah upaya kami untuk meringkas apa yang kami ketahui tentang distribusi di masa mendatang (yaitu, distribusi prediktif ) pada waktu menggunakan angka tunggal. MAPE kemudian adalah ukuran kualitas dari seluruh rangkaian ringkasan angka-tunggal dari distribusi masa depan pada waktu .Ft t t = 1 , ... , ntt=1,...,n

Masalahnya di sini adalah bahwa orang jarang secara eksplisit mengatakan apa yang baik satu nomor ringkasan distribusi masa depan.

Ketika Anda berbicara dengan memperkirakan konsumen, mereka biasanya ingin benar "rata-rata". Artinya, mereka ingin menjadi harapan atau rata-rata distribusi di masa depan, daripada, katakanlah, mediannya.FtFt

Inilah masalahnya: meminimalkan MAPE biasanya tidak akan mendorong kita untuk mengeluarkan harapan ini, tetapi ringkasan satu angka yang sangat berbeda ( McKenzie, 2011 , Kolassa, 2020 ). Ini terjadi karena dua alasan berbeda.

  • Distribusi masa depan asimetris. Misalkan distribusi masa depan kita yang sebenarnya mengikuti distribusi lognormal stasioner . Gambar berikut menunjukkan rangkaian waktu yang disimulasikan, serta kerapatan yang sesuai.(μ=1,σ2=1)

    lognormal

    Garis horizontal memberikan perkiraan titik optimal, di mana "optimalitas" didefinisikan sebagai meminimalkan kesalahan yang diharapkan untuk berbagai ukuran kesalahan.

    Kita melihat bahwa asimetri distribusi masa depan, bersama dengan fakta bahwa MAPE secara berbeda menghukum kelebihan dan kekurangan prakiraan, menyiratkan bahwa meminimalkan MAPE akan mengarah pada prakiraan yang sangat bias. ( Berikut adalah perhitungan perkiraan titik optimal dalam kasus gamma. )

  • Distribusi simetris dengan koefisien variasi yang tinggi. Misalkan berasal dari menggulirkan dadu bersisi enam standar pada setiap titik waktu . Gambar di bawah ini lagi menunjukkan jalur sampel yang disimulasikan:SEBUAHtt

    die roll

    Pada kasus ini:

    • Garis putus-putus di meminimalkan MSE yang diharapkan. Ini adalah harapan dari deret waktu.Ft=3.5

    • Ramalan (tidak ditampilkan dalam grafik) akan meminimalkan MAE yang diharapkan. Semua nilai dalam interval ini adalah median deret waktu.3Ft4

    • Garis putus-putus pada meminimalkan MAPE yang diharapkan.Ft=2

    Kami kembali melihat bagaimana meminimalkan MAPE dapat menyebabkan prakiraan yang bias, karena penalti diferensial yang berlaku untuk kelebihan dan kekurangan prakiraan. Dalam hal ini, masalahnya bukan berasal dari distribusi asimetris, tetapi dari koefisien variasi yang tinggi dari proses pembuatan data kami.

    Ini sebenarnya adalah ilustrasi sederhana yang dapat Anda gunakan untuk mengajari orang-orang tentang kekurangan MAPE - berikan saja beberapa dadu kepada peserta Anda dan minta mereka berguling. Lihat Kolassa & Martin (2011) untuk informasi lebih lanjut.

Pertanyaan CrossValidated terkait

Kode r

Contoh lognormal:

mm <- 1
ss.sq <- 1
SAPMediumGray <- "#999999"; SAPGold <- "#F0AB00"

set.seed(2013)
actuals <- rlnorm(100,meanlog=mm,sdlog=sqrt(ss.sq))

opar <- par(mar=c(3,2,0,0)+.1)
    plot(actuals,type="o",pch=21,cex=0.8,bg="black",xlab="",ylab="",xlim=c(0,150))
    abline(v=101,col=SAPMediumGray)

    xx <- seq(0,max(actuals),by=.1)
    polygon(c(101+150*dlnorm(xx,meanlog=mm,sdlog=sqrt(ss.sq)),
      rep(101,length(xx))),c(xx,rev(xx)),col="lightgray",border=NA)

    (min.Ese <- exp(mm+ss.sq/2))
    lines(c(101,150),rep(min.Ese,2),col=SAPGold,lwd=3,lty=2)

    (min.Eae <- exp(mm))
    lines(c(101,150),rep(min.Eae,2),col=SAPGold,lwd=3,lty=3)

    (min.Eape <- exp(mm-ss.sq))
    lines(c(101,150),rep(min.Eape,2),col=SAPGold,lwd=3,lty=4)
par(opar)

Contoh dadu bergulir:

SAPMediumGray <- "#999999"; SAPGold <- "#F0AB00"

set.seed(2013)
actuals <- sample(x=1:6,size=100,replace=TRUE)

opar <- par(mar=c(3,2,0,0)+.1)
    plot(actuals,type="o",pch=21,cex=0.8,bg="black",xlab="",ylab="",xlim=c(0,150))
    abline(v=101,col=SAPMediumGray)

    min.Ese <- 3.5
    lines(c(101,150),rep(min.Ese,2),col=SAPGold,lwd=3,lty=2)

    min.Eape <- 2
    lines(c(101,150),rep(min.Eape,2),col=SAPGold,lwd=3,lty=4)
par(opar)

Referensi

Gneiting, T. Membuat dan Mengevaluasi Prakiraan Titik . Jurnal Asosiasi Statistik Amerika , 2011, 106, 746-762

Goodwin, P. & Lawton, R. Tentang asimetri MAPE simetris . International Journal of Forecasting , 1999, 15, 405-408

Hoover, J. Mengukur Akurasi Prakiraan: Kelalaian dalam Mesin Peramalan Hari Ini dan Perangkat Lunak Perencanaan-Permintaan . Foresight: Jurnal Internasional Peramalan Terapan , 2006, 4, 32-35

Kolassa, S. Mengapa prakiraan titik "terbaik" tergantung pada kesalahan atau ketepatan pengukuran (Komentar yang diundang pada kompetisi peramalan M4). International Journal of Forecasting , 2020, 36 (1), 208-211

Kolassa, S. & Martin, R. Persentase Kesalahan Dapat Merusak Hari Anda (dan Menggulirkan Dadu Menunjukkan Bagaimana) . Foresight: Jurnal Internasional Peramalan Terapan, 2011, 23, 21-29

Kolassa, S. & Schütz, W. Keuntungan dari rasio MAD / Mean di atas MAPE . Foresight: Jurnal Internasional Peramalan Terapan , 2007, 6, 40-43

McKenzie, J. Rata-rata persentase kesalahan mutlak dan bias dalam perkiraan ekonomi . Economics Letters , 2011, 113, 259-262

S. Kolassa - Reinstate Monica
sumber
4
T&J yang luar biasa. Saya akan menambahkan bahwa semua metrik ini memiliki dua asumsi mendasar yang besar - seri ini iid dan stasioner. Jika salah satu atau kedua asumsi ini tidak terpenuhi, yang sering terjadi dalam praktik, maka validitasnya dipertanyakan.
Mike Hunter
Saya setuju dengan sebagian besar ini, bukankah tidak sah untuk berurusan dengan rasio suhu selama mereka pada skala yang tepat (yaitu, skala Kelvin)?
Reinstate Monica
2
@ Ben: dalam hal ini, kami tidak akan membaginya dengan nol. Namun, asimetri masih sedikit bermasalah. Jika perkiraan Anda adalah 293K dan yang sebenarnya adalah 288K, Anda memiliki APE sebesar 1,74%, dan jika perkiraannya adalah 288K sedangkan yang sebenarnya adalah 293K, APE adalah 1,71%, sehingga perkiraan kedua terlihat lebih baik, meskipun keduanya dimatikan oleh 5K . (Terjemahkan ke C atau F sesuai kebutuhan.) Pada dasarnya, kesalahan absolut yang sama dihukum lebih kuat untuk aktual yang lebih rendah. Plus, interpretasi kesalahan persentase untuk suhu tidak mudah.
S. Kolassa - Reinstate Monica
1
@ Ben Persentase suhu absolut sah, tetapi perbedaan suhu lebih mudah dipahami - setidaknya, ketika kita berurusan dengan suhu dalam rentang sehari-hari; saat meramalkan suhu inti bintang, mungkin sebaliknya.
Pere