Kapan harus log mengubah deret waktu sebelum memasang model ARIMA

26

Saya sebelumnya telah menggunakan pro perkiraan untuk meramalkan seri waktu univariat, tetapi saya mengalihkan alur kerja saya ke R. Paket ramalan untuk R berisi banyak fungsi yang bermanfaat, tetapi satu hal yang tidak dilakukannya adalah segala jenis transformasi data sebelum menjalankan otomatis .arima (). Dalam beberapa kasus ramalan pro memutuskan untuk mencatat transformasi data sebelum melakukan prakiraan, tetapi saya belum menemukan alasannya.

Jadi pertanyaan saya adalah: kapan saya harus melakukan log-ubah deret waktu saya sebelum mencoba metode ARIMA?

/ edit: setelah membaca jawaban Anda, saya akan menggunakan sesuatu seperti ini, di mana x adalah seri waktu saya:

library(lmtest)
if ((gqtest(x~1)$p.value < 0.10) {
    x<-log(x)
}

Apakah ini masuk akal?

Zach
sumber

Jawaban:

21

Beberapa peringatan sebelum melanjutkan. Seperti yang sering saya sarankan kepada murid-murid saya, gunakan auto.arima()hal-hal hanya sebagai perkiraan pertama untuk hasil akhir Anda atau jika Anda ingin memiliki model pelit ketika Anda memeriksa bahwa model berbasis teori saingan Anda melakukan lebih baik.

Data

Anda harus dengan jelas mulai dari deskripsi data deret waktu yang Anda gunakan. Dalam makro-ekonometrik, Anda biasanya bekerja dengan data agregat, dan rata-rata geometrik (secara mengejutkan) memiliki lebih banyak bukti empiris untuk data deret waktu makro, mungkin karena kebanyakan dari mereka terurai menjadi tren yang tumbuh secara eksponensial .

Ngomong-ngomong, saran Rob "secara visual" bekerja untuk deret waktu dengan bagian musiman yang jelas , karena data tahunan yang berubah-ubah kurang jelas untuk peningkatan variasi. Untungnya tren yang tumbuh secara eksponensial biasanya terlihat (jika tampaknya linier, daripada tidak perlu untuk log).

Model

Y(t)=X1α1(t)...Xkαk(t)ε(t)

Dalam log ekonometrik keuangan adalah hal yang umum karena popularitas pengembalian log, karena ...

Transformasi log memiliki sifat yang bagus

αsayaY(t)Xsaya(t)

Dalam model koreksi kesalahan kami memiliki asumsi empiris yang lebih kuat bahwa proporsi lebih stabil ( stasioner ) daripada perbedaan absolut.

Dalam ekonometrik keuangan, mudah untuk mengumpulkan pengembalian log dari waktu ke waktu .

Ada banyak alasan lain yang tidak disebutkan di sini.

Akhirnya

Perhatikan bahwa transformasi log biasanya diterapkan pada variabel non-negatif (level). Jika Anda mengamati perbedaan dua seri waktu (ekspor bersih, misalnya) bahkan tidak mungkin untuk mengambil log, Anda harus mencari data asli dalam level atau mengasumsikan bentuk tren umum yang dikurangi.

[ tambahan setelah diedit ] Jika Anda masih menginginkan kriteria statistik kapan melakukan transformasi log, solusi sederhana akan menjadi tes untuk heteroskedastisitas. Dalam hal peningkatan varian, saya akan merekomendasikan Tes Goldfeld-Quandt atau serupa dengannya. Dalam R itu terletak di library(lmtest)dan dilambangkan dengan gqtest(y~1)fungsi. Cukup mundur dengan istilah intersep jika Anda tidak memiliki model regresi apa pun, yadalah variabel dependen Anda.

Dmitrij Celov
sumber
terimakasih atas infonya. Dengan tes GQ, semakin rendah nilai p, semakin besar kemungkinan distribusinya heteroskedastik?
Zach
@ Zak: tepatnya, ambil 5% misalnya, tentu saja jika Anda tidak berencana untuk melakukan penggalian data. Saya pribadi mulai dari asumsi model.
Dmitrij Celov
@ Dmitrij. Terima kasih. Saya hanya ingin memastikan saya menafsirkan output dengan benar.
Zach
29

Plot grafik data berdasarkan waktu. Jika sepertinya variasi meningkat dengan tingkat seri, ambil log. Kalau tidak, modelkan data asli.

Rob Hyndman
sumber
3
Inilah pertanyaan: apa efeknya jika Anda mengambil log dan tidak dipanggil? Saya suka ketika bekerja dengan deret waktu yang memerlukan transformasi log, karena (seperti yang saya mengerti) koefisiennya adalah rasio dan pada nilai kecil hampir persentase. (Misalnya, exp (0,05) = 1,051.)
Wayne
4

Dari Buahnya Kamu Harus Mengenal Mereka

Asumsinya (untuk diuji) adalah bahwa kesalahan dari model memiliki varians konstan. Catatan ini tidak berarti kesalahan dari model yang diasumsikan. Ketika Anda menggunakan analisis grafis sederhana Anda pada dasarnya mengasumsikan model linear dalam waktu.

Jadi, jika Anda memiliki model yang tidak memadai seperti yang mungkin disarankan oleh plot data yang tidak sesuai dengan waktu, Anda mungkin salah menyimpulkan tentang perlunya transformasi daya. Box dan Jenkins melakukannya dengan contoh Data Maskapai mereka. Mereka tidak memperhitungkan 3 nilai yang tidak biasa dalam data terbaru sehingga mereka secara keliru menyimpulkan bahwa ada variasi yang lebih tinggi dalam residu pada tingkat tertinggi dari seri.

Untuk informasi lebih lanjut tentang hal ini, silakan lihat http://www.autobox.com/pdfs/vegas_ibf_09a.pdf

IrishStat
sumber
1

Anda mungkin ingin log-transform seri ketika mereka entah bagaimana geometris alami atau di mana nilai waktu investasi menyiratkan bahwa Anda akan membandingkan dengan ikatan risiko minimal yang memiliki pengembalian positif. Ini akan membuat mereka lebih "linearizable", dan karenanya cocok untuk hubungan pengulangan perbedaan sederhana.

DWIN
sumber
1
Transformasi itu seperti narkoba: Ada yang baik untuk Anda dan ada yang tidak. Jika tou tidak tertarik menguji hipotesis statistik maka Anda dapat mengasumsikan apa pun yang Anda suka. Tes parameterik hipotesis memiliki asumsi tentang kesalahan, abaikan saja.
IrishStat
1
Benar sekali. Saya memang mengatakan bahwa prosesnya harus geometris. Gagal mentransformasikan dapat menyebabkan kesalahan dalam inferensi juga. Saya tidak melihat di mana saya menyarankan seseorang mengabaikan asumsi mengenai kondisi kesimpulan yang valid.
DWin
1
stats.stackexchange.com/questions/6498/... termasuk diskusi tentang kapan dan mengapa harus berubah. "Fakta" bahwa deries asli adalah "geometris" tidak menyimpulkan bahwa residual dari model yang memadai memiliki standar deviasi yang sebanding dengan rata-rata. Itu bisa TETAPI itu harus dibuktikan secara empiris atau setidaknya diuji.
IrishStat