Bagaimana memodelkan data suhu deret waktu di beberapa lokasi sebagai fungsi data di satu lokasi?

8

Saya baru mengenal analisis deret waktu, dan akan sangat menghargai saran tentang cara terbaik untuk mendekati masalah regresi deret waktu berikut: Saya memiliki pengukuran suhu per jam di sekitar 20 lokasi di satu lokasi selama tiga tahun, bersama dengan informasi tambahan statis (kemiringan, ketinggian, aspek, tutupan kanopi). Situs ini berukuran beberapa hektar, dan alat perekam suhu tersebar di seluruh situs sepanjang beberapa transek, dengan jarak ~ 20-50 m. Sekitar 1 km jauhnya, saya memiliki data per jam dari stasiun cuaca, yang juga menyediakan pengukuran kecepatan angin, arah angin, kelembaban, penerangan matahari, dll.

Saya ingin dapat memprediksi suhu (min, maks, rata-rata) di situs (secara umum) hanya menggunakan data dari weatherstation; itu di tempat semi-permanen, sedangkan perekam suhu di situs hanya di tempat selama 3 tahun. Jadi pada intinya saya memiliki beberapa variabel independen (suhu, kelembaban, angin, dll) di satu lokasi (weatherstation), tetapi variabel dependen tunggal (suhu) di beberapa lokasi, yang masing-masing juga memiliki beberapa atribut time-invariant: slope, ketinggian, aspek, dll.

Saya paling tertarik untuk memprediksi posisi terendah dan tertinggi harian di lokasi secara umum, daripada suhu setiap jam di setiap lokasi pencatatan suhu di lokasi. Meskipun, prediksi per jam itu tentu akan bernilai.

Pendekatan awal saya adalah menghitung rata-rata harian, minimum, dan maksimum dari suhu di lokasi, dan menggunakan ini sebagai variabel dependen dalam regresi linier sederhana, menggunakan pengukuran yang tersedia di Weatherstation sebagai variabel independen. Ini bekerja cukup baik (R2> 0,50 dengan 2 prediktor), tetapi tampaknya terlalu sederhana karena banyak alasan, dan saya membayangkan harus ada cara yang lebih canggih (dan kuat) untuk melakukan ini.

Pertama, saya tidak melakukan sesuatu yang eksplisit tentang sifat deret waktu dari nilai harian dalam regresi, dan meskipun menit atau suhu rata-rata dari satu hari ke hari berikutnya mungkin tidak berkorelasi seperti dari satu jam ke jam. selanjutnya, saya bertanya-tanya tentang masalah dengan independensi data harian ini (atau tentu saja setiap jam, jika saya mencoba memprediksi suhu setiap jam). Kedua, karena kekhawatiran dengan memiliki beberapa pengukuran suhu yang agak berkorelasi di seluruh situs (mereka jauh lebih mirip di antara mereka sendiri daripada data stasiun cuaca), saya hanya menggunakan rata-rata atau min atau maks dari semua pengukuran di seluruh situs , dibandingkan dengan memasukkan data dari masing-masing lokasi pengukuran secara langsung. Tetapi ini juga mencegah saya menggunakan informasi tambahan yang tidak berubah-waktu dari setiap lokasi pengukuran suhu (kemiringan, ketinggian, aspek, tutupan kanopi), yang mungkin akan menjelaskan bagian yang baik dari perbedaan suhu antara lokasi di lokasi. Ketiga, karena kekhawatiran dengan regresi yang didominasi oleh siklus diurnal yang sangat kuat dalam suhu, saya hanya melihat nilai-nilai harian daripada jam.

Setiap saran tentang cara yang lebih baik untuk membahas hal ini (terutama di R), atau di mana harus mulai mencari, akan sangat dihargai! Saya menyadari ada banyak paket R yang berhubungan dengan time-series, tetapi saya mengalami kesulitan menemukan tempat terbaik untuk memulai dengan masalah jenis ini karena tidak ada contoh yang saya lihat yang benar-benar mencerminkan situasi saya. mencoba model di sini.

Pembaruan: memikirkan hal ini sedikit lebih banyak, tidak jelas bagi saya apakah model deret waktu benar-benar cocok di sini karena saya tidak tertarik untuk memprediksi apa yang akan terjadi pada titik waktu tertentu di masa mendatang. Sebaliknya, saya hanya tertarik pada bagaimana suhu di situs terkait dengan suhu (dan variabel lingkungan lainnya) di weatherstation. Saya pikir mungkin analisis deret waktu akan bermanfaat karena saya khawatir bahwa pengukuran suhu berikutnya mungkin tidak cukup independen. Tentu saja, suhu satu jam sangat tergantung pada jam sebelumnya, tetapi ketergantungannya lebih lemah untuk data harian. Dalam kedua kasus, apakah korelasi waktu / data non-independensi time-series menjadi perhatian yang valid yang harus diatasi jika seseorang tidak tertarik pada prediksi time-series?


sumber
Saya akan menyarankan sesuatu di sepanjang proses poin . Tetapi saya tidak tahu bagaimana melakukannya dengan tepat, Anda dapat melihat pada tesis ini untuk beberapa ide ...
penggoda

Jawaban:

1

Anda mungkin ingin memeriksa paket GAM dalam R, karena dapat disesuaikan untuk melakukan beberapa (atau semua) dari apa yang Anda cari. Makalah asli ( Hastie & Tibshirani, 1986 ) tersedia melalui OpenAccess jika Anda siap untuk membacanya.

Pada dasarnya, Anda memodelkan variabel dependen tunggal sebagai kombinasi aditif dari prediktor 'lancar'. Salah satu kegunaan tipikal adalah memiliki deret waktu dan tertinggal sebagai prediktor Anda, menghaluskan input ini, lalu menerapkan GAM.

Metode ini telah digunakan secara luas untuk memperkirakan kematian harian sebagai fungsi dari rangkaian waktu lingkungan yang diperhalus, terutama polutan. Ini bukan OpenAccess, tetapi ( Dominici et al., 2000 ) adalah referensi yang luar biasa, dan ( Metode Statistik untuk Epidemiologi Lingkungan dengan R ) adalah buku yang bagus tentang cara menggunakan R untuk melakukan jenis analisis ini.

Wesley Burr
sumber
0

Apakah Anda ingin memperkirakan atau tidak tidak ada hubungannya dengan analisis deret waktu yang tepat. Metode time series dapat mengembangkan model yang kuat yang dapat digunakan hanya untuk mengkarakterisasi hubungan antara seri dependen dan satu set input yang disarankan pengguna (alias seri prediktor yang ditentukan pengguna) dan variabel yang dihilangkan secara empiris diidentifikasi apakah mereka deterministik atau stokastik. pilihan mereka kemudian dapat memperluas "sinyal" ke masa depan yaitu perkiraan dengan ketidakpastian berdasarkan pada ketidakpastian dalam koefisien dan ketidakpastian dalam nilai-nilai masa depan prediktor. Sekarang kedua jenis "seri yang dihilangkan" yang diidentifikasi secara empiris ini dapat diklasifikasikan sebagai 1) deterministik dan 2) stokastik. Jenis pertama adalah Pulsa, Pergeseran Tingkat, Pulsa Musiman dan Tren Waktu Lokal sedangkan tipe kedua diwakili oleh bagian ARIMA dari model akhir Anda. Ketika seseorang menghilangkan satu atau lebih seri stokastik dari daftar kemungkinan prediktor, kelalaian tersebut ditandai oleh komponen ARIMA dalam model akhir Anda. Pemodel seri waktu menyebut model ARIMA sebagai "Model Regresi Pria Miskin" karena masa lalu seri ini digunakan sebagai proksi untuk rangkaian input stokastik yang dihilangkan.

IrishStat
sumber