Saya mencoba metode peramalan dan ingin memeriksa apakah metode saya benar atau tidak.
Studi saya membandingkan berbagai jenis reksa dana. Saya ingin menggunakan indeks GCC sebagai patokan untuk salah satu dari mereka tetapi masalahnya adalah bahwa indeks GCC berhenti pada September 2011 dan studi saya adalah dari Januari 2003 hingga Juli 2014. Jadi, saya mencoba menggunakan indeks lain, indeks MSCI, untuk membuat regresi linier, tetapi masalahnya adalah bahwa indeks MSCI kehilangan data dari September 2010.
Untuk menyiasati ini, saya melakukan yang berikut. Apakah langkah-langkah ini valid?
Indeks MSCI adalah data yang hilang untuk September 2010 hingga Juli 2012. Saya "menyediakan" itu dengan menerapkan rata-rata bergerak untuk lima pengamatan. Apakah pendekatan ini valid? Jika demikian, berapa banyak pengamatan yang harus saya gunakan?
Setelah memperkirakan data yang hilang, saya melakukan regresi pada indeks GCC (sebagai variabel dependen) versus indeks MSCI (sebagai variabel independen) untuk periode yang tersedia bersama (dari Januari 2007 hingga September 2011), kemudian mengoreksi model dari semua masalah. Untuk setiap bulan, saya mengganti x dengan data dari indeks MSCI untuk periode istirahat. Apakah ini valid?
Di bawah ini adalah data dalam format Comma-Separated-Values yang berisi tahun dengan baris dan bulan dengan kolom. Data juga tersedia melalui tautan ini .
Seri GCC:
,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
2002,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,117.709
2003,120.176,117.983,120.913,134.036,145.829,143.108,149.712,156.997,162.158,158.526,166.42,180.306
2004,185.367,185.604,200.433,218.923,226.493,230.492,249.953,262.295,275.088,295.005,328.197,336.817
2005,346.721,363.919,423.232,492.508,519.074,605.804,581.975,676.021,692.077,761.837,863.65,844.865
2006,947.402,993.004,909.894,732.646,598.877,686.258,634.835,658.295,672.233,677.234,491.163,488.911
2007,440.237,486.828,456.164,452.141,495.19,473.926,492.782,525.295,519.081,575.744,599.984,668.192
2008,626.203,681.292,616.841,676.242,657.467,654.66,635.478,603.639,527.326,396.904,338.696,308.085
2009,279.706,252.054,272.082,314.367,340.354,325.99,326.46,327.053,354.192,339.035,329.668,318.267
2010,309.847,321.98,345.594,335.045,311.363,299.555,310.802,306.523,315.496,324.153,323.256,334.802
2011,331.133,311.292,323.08,327.105,320.258,312.749,305.073,297.087,298.671,NA,NA,NA
Seri MSCI:
,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
2007,NA,NA,NA,NA,1000,958.645,1016.085,1049.468,1033.775,1118.854,1142.347,1298.223
2008,1197.656,1282.557,1164.874,1248.42,1227.061,1221.049,1161.246,1112.582,929.379,680.086,516.511,521.127
2009,487.562,450.331,478.255,560.667,605.143,598.611,609.559,615.73,662.891,655.639,628.404,602.14
2010,601.1,622.624,661.875,644.751,588.526,587.4,615.008,606.133,NA,NA,NA,NA
2011,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA,NA
2012,NA,NA,NA,NA,NA,NA,NA,609.51,598.428,595.622,582.905,599.447
2013,627.561,619.581,636.284,632.099,651.995,651.39,687.194,676.76,694.575,704.806,727.625,739.842
2014,759.036,787.057,817.067,824.313,857.055,805.31,873.619,NA,NA,NA,NA,NA
sumber
Jawaban:
Saran saya mirip dengan apa yang Anda usulkan kecuali bahwa saya akan menggunakan model deret waktu daripada rata-rata bergerak. Kerangka model ARIMA juga cocok untuk mendapatkan perkiraan termasuk tidak hanya seri MSCI sebagai regressor tetapi juga kelambatan dari seri GCC yang juga dapat menangkap dinamika data.
Pertama, Anda mungkin cocok dengan model ARIMA untuk seri MSCI dan menginterpolasi pengamatan yang hilang dalam seri ini. Kemudian, Anda dapat mencocokkan model ARIMA untuk seri GCC menggunakan MSCI sebagai regresi eksogen dan mendapatkan prakiraan untuk GCC berdasarkan model ini. Dalam melakukan ini, Anda harus berhati-hati berurusan dengan jeda yang diamati secara grafis dalam seri dan yang dapat mendistorsi pemilihan dan kesesuaian model ARIMA.
Inilah yang saya lakukan dalam melakukan analisis ini
R
. Saya menggunakan fungsiforecast::auto.arima
untuk membuat pemilihan model ARIMA dantsoutliers::tso
untuk mendeteksi kemungkinan level shift (LS), perubahan sementara (TC) atau additive outliers (AO).Ini adalah data yang pernah dimuat:
Langkah 1: Pasang model ARIMA ke seri MSCI
Meskipun grafik menunjukkan adanya beberapa jeda, tidak ada outlier yang terdeteksi
tso
. Ini mungkin disebabkan oleh fakta bahwa ada beberapa pengamatan yang hilang di tengah sampel. Kita dapat menangani ini dalam dua langkah. Pertama, paskan model ARIMA dan gunakan untuk menginterpolasi observasi yang hilang; kedua, paskan model ARIMA untuk seri berinterpolasi yang memeriksa kemungkinan LS, TC, AO, dan sempurnakan nilai interpolasi jika ada perubahan.Pilih model ARIMA untuk seri MSCI:
Isi pengamatan yang hilang dengan mengikuti pendekatan yang dibahas dalam jawaban saya untuk posting ini :
Pasangkan model ARIMA untuk seri yang diisi
msci.filled
. Sekarang beberapa outlier ditemukan. Namun demikian, menggunakan opsi alternatif berbagai pencilan terdeteksi. Saya akan menyimpan satu yang ditemukan dalam kebanyakan kasus, perubahan level pada Oktober 2008 (pengamatan 18). Anda dapat mencoba misalnya ini dan opsi lainnya.Model yang dipilih sekarang:
Gunakan model sebelumnya untuk memperbaiki interpolasi dari pengamatan yang hilang:
Interpolasi awal dan akhir dapat dibandingkan dalam plot (tidak ditampilkan di sini untuk menghemat ruang):
Langkah 2: Paskan model ARIMA ke GCC menggunakan msci.filled2 sebagai reogen eksogen
Saya mengabaikan pengamatan yang hilang di awal
msci.filled2
. Pada titik ini saya menemukan beberapa kesulitan untuk digunakanauto.arima
bersamatso
, jadi saya mencoba dengan tangan beberapa model ARIMAtso
dan akhirnya memilih ARIMA (1,1,0).Plot GCC menunjukkan pergeseran pada awal 2008. Namun, tampaknya sudah ditangkap oleh regressor MSCI dan tidak ada regressor tambahan dimasukkan kecuali aditif outlier pada November 2008.
Plot residu tidak menunjukkan struktur autokorelasi tetapi plot menunjukkan pergeseran level pada November 2008 dan outlier aditif pada Februari 2011. Namun, menambahkan intervensi yang sesuai, diagnostik model lebih buruk. Analisis lebih lanjut mungkin diperlukan pada saat ini. Di sini, saya akan terus mendapatkan prakiraan berdasarkan model terakhir
fit3
.sumber
sumber
2 sepertinya baik-baik saja. Saya akan pergi dengan itu.
Adapun 1. Saya akan menyarankan Anda untuk melatih model untuk memprediksi GCC menggunakan semua fitur yang tersedia dalam dataset (yang bukan NA selama periode September 2011 dan seterusnya) (misalkan baris yang memiliki nilai NA sebelum sep2011 saat pelatihan). Model harus sangat baik (gunakan validasi K-fold cross). Sekarang perkirakan GCC untuk periode September 2011 dan seterusnya.
Atau, Anda dapat melatih model yang memprediksi MSCI, menggunakannya untuk memprediksi nilai MSCI yang hilang. Sekarang latih model untuk memprediksi GCC menggunakan MSCI dan kemudian memprediksi GCC untuk periode September 2011 dan seterusnya
sumber