Saya perlu mengotomatiskan peramalan time-series, dan saya tidak tahu sebelumnya fitur-fitur dari seri tersebut (musiman, tren, kebisingan, dll.).
Tujuan saya bukan untuk mendapatkan model terbaik untuk setiap seri, tetapi untuk menghindari model yang sangat buruk. Dengan kata lain, untuk mendapatkan kesalahan kecil setiap kali bukanlah masalah, tetapi untuk mendapatkan kesalahan besar sesekali adalah.
Saya pikir saya bisa mencapai ini dengan menggabungkan model yang dihitung dengan teknik yang berbeda.
Artinya, meskipun ARIMA akan menjadi pendekatan terbaik untuk seri tertentu, itu mungkin bukan yang terbaik untuk seri lain; sama untuk smoothing eksponensial.
Namun, jika saya menggabungkan satu model dari setiap teknik, bahkan jika satu model tidak begitu baik, yang lain akan membawa perkiraan lebih dekat ke nilai sebenarnya.
Telah diketahui bahwa ARIMA bekerja lebih baik untuk seri jangka panjang yang berperilaku baik, sementara smoothing eksponensial menonjol dengan seri bising jangka pendek.
- Ide saya adalah menggabungkan model yang dihasilkan dari kedua teknik untuk mendapatkan perkiraan yang lebih kuat, apakah masuk akal?
Mungkin ada banyak cara untuk menggabungkan model-model itu.
- Jika ini merupakan pendekatan yang baik, bagaimana saya harus menggabungkannya?
Rata-rata prakiraan yang sederhana adalah sebuah pilihan, tetapi mungkin saya bisa mendapatkan prediksi yang lebih baik jika saya menimbang rata-rata berdasarkan beberapa ukuran kebaikan model.
- Apa yang akan menjadi perlakuan varian ketika menggabungkan model?
sumber
Jawaban:
Menggabungkan prakiraan adalah ide yang bagus. (Saya pikir itu tidak berlebihan untuk mengatakan bahwa ini adalah salah satu dari beberapa hal yang disetujui oleh para peramal akademis.)
Saya kebetulan telah menulis makalah beberapa waktu lalu melihat berbagai cara untuk memperkirakan berat dalam menggabungkan mereka: http://www.sciencedirect.com/science/article/pii/S0169207010001032 Pada dasarnya, menggunakan bobot (Akaike) tidak secara konsisten meningkatkan kombinasi lebih dari rata-rata atau median sederhana atau dipangkas / dimenangkan, jadi saya pribadi akan berpikir dua kali sebelum menerapkan prosedur yang kompleks yang mungkin tidak menghasilkan manfaat yang pasti (ingat, bahwa kombinasi secara konsisten mengungguli pemilihan metode tunggal dengan kriteria informasi). Ini mungkin tergantung pada rangkaian waktu tertentu yang Anda miliki, tentu saja.
Saya melihat menggabungkan interval prediksi di kertas di atas, tetapi tidak menggabungkan varians seperti itu. Saya sepertinya mengingat sebuah makalah yang tidak lama kembali di IJF dengan fokus ini, jadi Anda mungkin ingin mencari "menggabungkan" atau "kombinasi" melalui masalah-masalah belakang IJF.
Beberapa makalah lain yang telah meneliti penggabungan prakiraan ada di sini (dari tahun 1989, tetapi sebuah ulasan) dan di sini dan di sini (juga melihat kepadatan) dan di sini dan di sini. Banyak dari catatan ini yang masih kurang dipahami mengapa kombinasi ramalan sering mengungguli model terpilih tunggal. Makalah kedua ke terakhir adalah pada kompetisi peramalan M3; salah satu temuan utama mereka adalah (nomor (3) pada halaman 458) bahwa "Keakuratan kombinasi berbagai metode mengungguli, rata-rata, metode spesifik yang dikombinasikan dan bekerja dengan baik dibandingkan dengan metode lain." Yang terakhir dari makalah ini menemukan bahwa kombinasi tidak selalu berkinerja lebih baik daripada model tunggal, tetapi mereka dapat sangat mengurangi risiko kegagalan bencana (yang merupakan salah satu tujuan Anda). Lebih banyak literatur harus mudah ditemukan di International Journal of Forecasting , Journal of Forecasting dan untuk aplikasi yang lebih spesifik dalam ekonometrika atau literatur rantai pasokan.
sumber
Mengapa tidak menentukannya lebih lanjut? Saya tidak berpikir bahwa salah satu model yang akan Anda hasilkan bisa lebih baik atau cukup baik daripada pilihan tertentu.
Dengan itu, jika Anda dapat mempersempit pilihan Anda sedikit ke yang Anda dapat menguji, dan input data dapat distandarisasi, lalu mengapa tidak menulis prosedur pengujian otomatis dalam R?
Katakanlah Anda memutuskan data Anda akan berada dalam kisaran untuk diperkirakan oleh lima model serta satu "mundur". Katakanlah Anda dapat menandai input dengan berbagai tes. Kemudian langsung saja menulis algoritma R (atau program seperti itu) yang menjalankan ini untuk Anda. Ini berfungsi jika Anda bisa menghasilkan diagram alur model mana yang akan dijalankan berdasarkan data uji, yaitu jika ada titik pohon keputusan adalah biner.
Jika ini bukan pilihan karena keputusannya mungkin bukan biner, saya sarankan Anda menerapkan sistem peringkat berdasarkan tes yang berlaku dan menjalankan beberapa data simulasi "kasus ekstrim" melalui kisi Anda untuk melihat apakah hasilnya sesuai dengan yang Anda cari.
Anda dapat menggabungkan hal-hal ini dengan jelas, misalnya pengujian untuk non-stasioneritas dapat memberikan ya-tidak yang pasti, sedangkan atribut lain mungkin jatuh ke dalam rentang seperti multikolinearitas.
Anda dapat menggambar ini di atas kertas terlebih dahulu, kemudian membangunnya, mensimulasikannya dengan distribusi yang Anda harapkan.
Kemudian jalankan saja program R setiap kali data baru tiba. Saya melihat tidak perlu menggabungkan beberapa model dengan kemampuan komputasi yang kemungkinan besar Anda miliki.
sumber
Ada formula yang bagus dan sederhana untuk menggabungkan dua metode peramalan, Anda cukup menimbangnya dengan yang pertama dengan a dan yang lainnya dengan (1 - a), di mana a ditemukan dengan meminimalkan varian prakiraan gabungan ini. Seperti yang Anda ketahui kesalahan kedua metode perkiraan, Anda dapat menghitung kesalahan kombinasi yang akan bergantung pada "a". Perhitungannya sederhana ketika rata-rata setiap metode adalah = 0. Untuk menggabungkan lebih dari 2 metode rumus masih "sederhana" dalam arti bahwa Anda dapat menghitungnya secara analitis "dengan tangan", atau juga menggunakan opsi Solver dari EXCEL
sumber