Analisis skala-invarian seri waktu

8

Ketika mengembangkan perangkat lunak time-series untuk keperluan umum, apakah itu ide yang bagus untuk menjadikannya skala invarian? Bagaimana caranya?

Saya mengambil serangkaian waktu sekitar 40 poin, dan kemudian dikalikan dengan faktor mulai dari 10E-9 hingga 10E3 dan kemudian berlari melalui fungsi ARIMA Forecast Pro dan Minitab. Di Forecast Pro, semua menghasilkan jawaban yang sama (pemodelan otomatis), sedangkan di Minitab, mereka tidak. Tidak yakin apa yang Forecast Pro lakukan, tetapi mereka mungkin menaikkan atau menurunkan semua angka ke skala tertentu (katakanlah 100-an) sebelum menjalankan model. Apakah ini ide bagus secara umum?

Samik R
sumber

Jawaban:

7

Jika perangkat lunak menghitung jumlah kesalahan kuadrat dalam optimasi (dan sebagian besar akan), maka Anda dapat mengalami masalah dengan angka yang sangat besar atau angka yang sangat kecil karena cara menyimpan angka floating point. Hal yang sama berlaku untuk setiap pemodelan statistik, bukan hanya analisis deret waktu. Salah satu cara untuk menghindari masalah adalah untuk menskala data sebelum menjalankan model, dan kemudian skala kembali hasilnya. Untuk sebagian besar model deret waktu, termasuk semua model linier, itu akan berfungsi. Namun beberapa model nonlinier tidak akan menskala.

Ketika saya menganalisis data, saya akan sering menskala data sendiri, tidak hanya untuk mencegah kemungkinan masalah pengoptimalan tetapi juga untuk membuat grafik dan tabel lebih mudah dibaca.

Rob Hyndman
sumber
1
Lebih jauh untuk ini, Anda mungkin ingin memeriksa Apa Yang Harus Diketahui Setiap Ilmuwan Komputer Tentang Aritmatika Floating-Point, oleh David Goldberg untuk saran tentang cara menangani masalah representasi numerik.
fmark
@Rob: Terima kasih atas jawabannya. Saya kira Anda kemudian menyiratkan bahwa tidak apa-apa untuk skala seri sebelum melakukan analisis.
Samik R
@ tanda: Terima kasih atas komentarnya - Saya sebenarnya cukup akrab dengan materi itu.
Samik R
@Samik: Untuk model linier seperti proses Gaussian ARIMA, ya.
Rob Hyndman
3
Dalam batas-batas yang luas, penskalaan tidak membuat perbedaan apa pun untuk perhitungan titik apung: ini hanya berarti pergeseran eksponen tanpa kehilangan presisi. Di mana penskalaan dapat membantu adalah tempat penghitungan melibatkan set data yang berada pada skala yang berbeda. Dugaan saya adalah bahwa rumus deret waktu menggunakan beberapa pengukuran waktu (milidetik? Tahun? Hanya langkah integral?) Yang mungkin memiliki rentang yang sangat berbeda dari rentang data. Statistik yang baik SW secara internal akan mengukur matriksnya untuk menghindari kehilangan presisi; ini bisa menjelaskan perbedaan antara FP dan Minitab.
whuber