Mengapa meminimalkan MAE menyebabkan peramalan median dan bukan rata-rata?

19

Dari buku Forecasting: Principles and Practice oleh Rob J Hyndman dan George Athanasopoulos , khususnya bagian tentang pengukuran akurasi :

Metode perkiraan yang meminimalkan MAE akan menghasilkan perkiraan median, sedangkan meminimalkan RMSE akan mengarah pada perkiraan rata-rata.

Bisakah seseorang memberikan penjelasan intuitif mengapa meminimalkan MAE mengarah pada peramalan median dan bukan rata-rata? Dan apa artinya ini dalam praktik?

Saya telah bertanya kepada pelanggan: "apa yang lebih penting bagi Anda untuk membuat perkiraan rata-rata lebih akurat atau untuk menghindari perkiraan yang sangat tidak akurat?". Dia mengatakan bahwa membuat perkiraan rata-rata lebih akurat memiliki prioritas lebih tinggi. Jadi, dalam hal ini, haruskah saya menggunakan MAE atau RMSE? Sebelum saya membaca kutipan ini, saya percaya bahwa MAE akan lebih baik untuk kondisi seperti itu. Dan sekarang saya ragu.

Brans Ds
sumber

Jawaban:

17

Sangat berguna untuk mengambil langkah mundur dan melupakan aspek peramalan sebentar. Mari kita pertimbangkan sembarang distribusi dan menganggap kita ingin meringkasnya menggunakan satu nomor.F

Anda belajar sangat awal di kelas statistik Anda yang menggunakan ekspektasi sebagai ringkasan angka tunggal akan meminimalkan kesalahan kuadrat yang diharapkan.F

Pertanyaannya sekarang adalah: mengapa menggunakan median dari meminimalkan diharapkan mutlak kesalahan?F

Untuk ini, saya sering merekomendasikan "Visualisasi Median sebagai Lokasi Minimum-Deviasi" oleh Hanley et al. (2001, The American Statistician ) . Mereka membuat applet kecil bersama dengan kertas mereka, yang sayangnya mungkin tidak bekerja dengan browser modern lagi, tetapi kita dapat mengikuti logika di kertas.

Misalkan Anda berdiri di depan bank lift. Mereka dapat diatur dengan jarak yang sama, atau beberapa jarak antara pintu lift mungkin lebih besar dari yang lain (misalnya, beberapa elevator mungkin rusak). Di depan yang lift harus Anda berdiri untuk memiliki minimal diharapkan berjalan ketika salah satu lift yang tiba? Perhatikan bahwa jalan yang diharapkan ini memainkan peran kesalahan absolut yang diharapkan!

Misalkan Anda memiliki tiga elevator A, B dan C.

  • Jika Anda menunggu di depan A, Anda mungkin harus berjalan dari A ke B (jika B tiba), atau dari A ke C (jika C tiba) - melewati B!
  • Jika Anda menunggu di depan B, Anda harus berjalan dari B ke A (jika A tiba) atau dari B ke C (jika C tiba).
  • Jika Anda menunggu di depan C, Anda harus berjalan dari C ke A (jika A tiba) - melewati B - atau dari C ke B (jika B tiba).

Perhatikan bahwa dari posisi menunggu pertama dan terakhir, ada jarak - AB di posisi pertama, BC di posisi terakhir - yang Anda perlukan untuk berjalan dalam beberapa kasus elevator yang tiba. Karenanya, taruhan terbaik Anda adalah berdiri tepat di depan lift tengah - terlepas dari bagaimana ketiga elevator diatur.

Berikut ini adalah Gambar 1 dari Hanley et al .:

Hanley et al., Gambar 1

Ini mudah digeneralisasikan ke lebih dari tiga elevator. Atau ke lift dengan peluang berbeda untuk tiba lebih dulu. Atau memang banyak sekali lift yang tak terhingga jumlahnya. Jadi kita dapat menerapkan logika ini untuk semua distribusi diskrit dan kemudian melewati batas hingga sampai pada distribusi kontinu.

Untuk menggandakan kembali perkiraan, Anda perlu mempertimbangkan bahwa yang mendasari perkiraan poin Anda untuk periode waktu tertentu di masa depan, ada perkiraan kepadatan atau distribusi prediksi (biasanya tersirat), yang kami rangkum menggunakan ramalan titik angka tunggal. Argumen di atas menunjukkan mengapa median kepadatan prediktif Anda adalah perkiraan titik yang meminimalkan kesalahan absolut atau MAE yang diharapkan. (Untuk lebih tepatnya, median mana pun dapat melakukannya, karena mungkin tidak didefinisikan secara unik - dalam contoh lift, ini terkait dengan memiliki jumlah lift yang genap .)F^

Dan tentu saja median mungkin sangat berbeda dari yang diharapkan jika asimetris. Salah satu contoh penting adalah dengan volume , terutama . Memang, jika Anda memiliki peluang 50% atau lebih tinggi dari nol penjualan, misalnya, jika penjualan didistribusikan dengan parameter , maka Anda akan meminimalkan kesalahan absolut yang diharapkan dengan memperkirakan nol datar - yang agak tidak intuitif , bahkan untuk deret waktu yang sangat terputus-putus. Saya menulis sedikit makalah tentang ini ( Kolassa, 2016, International Journal of Forecasting ). λln2F^λln2

Jadi, jika Anda mencurigai bahwa distribusi prediktif Anda (atau seharusnya) asimetris, seperti dalam dua kasus di atas, maka jika Anda ingin mendapatkan perkiraan ekspektasi yang tidak bias, gunakan . Jika distribusi dapat dianggap simetris (biasanya untuk seri volume tinggi), maka median dan rerata bertepatan, dan menggunakan juga akan memandu Anda ke prakiraan yang tidak bias - dan MAE lebih mudah dipahami.

Demikian pula, meminimalkan dapat menyebabkan prakiraan yang bias, bahkan untuk distribusi simetris. Jawaban saya yang terdahulu ini berisi contoh simulasi dengan seri asimetris yang benar-benar positif (terdistribusi secara lognormal) yang dapat diramalkan secara bermakna menggunakan tiga perkiraan titik yang berbeda, tergantung pada apakah kita ingin meminimalkan MSE, MAE atau MAPE.

S. Kolassa - Reinstate Monica
sumber
9

Jawaban Stephan memberi Anda penjelasan intuitif mengapa meminimalkan kesalahan rata-rata absolut memberi Anda median. Sekarang untuk menjawab MSE, MAE atau MAPE mana yang harus digunakan:

MAE kuat , artinya kurang sensitif terhadap outlier. Bayangkan sebuah seri dengan kesalahan satu juta kali lebih besar dari yang seharusnya. Pada MSE, itu akan menarik perkiraan satu juta / N kali (di mana N adalah jumlah poin), sedangkan MAE hanya akan ditarik untuk 1 unit.

Sayangnya, MAE tidak unik , sehingga mungkin menunjukkan beberapa jenis perilaku skizofrenia.

Jadi rekomendasi saya adalah pertama membuat MSE, kemudian menggunakan parameter MSE untuk memulai regresi MAE.

Dalam hal apa pun, bandingkan kedua perkiraan: jika keduanya sangat berbeda maka ada sesuatu yang berbau dalam data Anda.

masukkan deskripsi gambar di sinimasukkan deskripsi gambar di sini

AlainD
sumber