Rangkaian waktu multivarian dalam R. Bagaimana menemukan korelasi yang tertinggal dan membangun model untuk peramalan

16

Saya baru di halaman dan cukup baru dalam statistik dan R. Saya sedang mengerjakan proyek untuk kuliah dengan tujuan menemukan korelasi antara hujan dan tingkat aliran air di sungai. Setelah korelasinya terbukti, saya ingin memperkirakan / memprediksinya.

Data yang saya punya satu set data beberapa tahun (diambil setiap 5 menit) untuk sungai tertentu yang mengandung:

  • Curah hujan dalam milimeter
  • Sungai mengalir dalam meter kubik per detik

Sungai ini tidak memiliki salju, jadi modelnya hanya didasarkan pada hujan dan waktu. Kadang-kadang ada suhu yang sangat dingin, tetapi saya berpikir untuk menghapus periode-periode itu dari data sebagai pencilan karena situasi itu di luar ruang lingkup proyek saya.

Contoh Di sini Anda memiliki beberapa plot sampel data dari hujan dan kenaikan air beberapa jam kemudian.

Contoh lebih besar beberapa hari

Contoh pendek hanya satu periode curah hujan

Garis merah adalah aliran sungai. Jeruk adalah hujan. Anda bisa melihatnya selalu hujan sebelum air naik di sungai. Ada beberapa hujan mulai lagi di akhir deret waktu, tetapi itu akan mempengaruhi aliran sungai nanti.

Korelasi ada di sana. Inilah yang saya lakukan di R untuk membuktikan korelasi menggunakan ccf di R:

  • korelasi silang
  • variabel terkemuka
  • lag

Ini adalah garis R saya yang digunakan untuk contoh kedua (satu periode hujan):

ccf(arnoiaex1$Caudal, arnoiaex1$Precip, lag.max=1000, plot=TRUE, main="Flow & Rain")

hasil ccf untuk contoh kecil 2

Interpretasi saya adalah:

  • bahwa hujan mengarah (terjadi lebih dulu),
  • 450
  • 450800ccf

Apakah saya benar?

Tentang deret waktu . Rangkaian waktu ini tidak memiliki periodisitas atau musim. Hujan bisa datang kapan saja dan menimbulkan efek. Memang berkurang di musim panas, tapi itu masih terjadi, itu adalah daerah dengan banyak hujan sepanjang tahun.

Model dan perkiraan. Saya tidak tahu cara membuat model untuk dapat melakukan perkiraan yang memberi tahu saya berapa banyak sungai yang akan menambah volume setelah periode hujan. Saya sudah mencoba beberapa arima, auto arimatetapi belum terlalu sukses. Haruskah saya menggunakan Arima, varsatau model multivarian lain yang berbeda? Setiap tautan ke contoh akan sangat membantu.

Tolong, beri tahu saya jika Anda tahu cara terbaik untuk membuat prediksi ini, model apa yang harus saya gunakan. Ada beberapa hal lain yang saya pertimbangkan lakukan tetapi saya keluarkan dari penjelasan ini untuk kesederhanaan. Saya dapat membagikan beberapa data jika diperlukan.

Fernando Ayuso
sumber
Anda mencari analisis intervensi (subset disebut "studi peristiwa" dalam studi sosial)
Konstantinos

Jawaban:

3

Anda perlu menggunakan perilaku ACF & PACF Anda untuk membantu Anda menentukan model mana yang lebih sesuai dengan data Anda (mis. Adanya pembusukan lambat dalam plot ACF menunjukkan bahwa perbedaan mungkin diperlukan untuk membuat seri lebih stabil. Plot ACF Anda jelas menunjukkan semacam itu transformasi diperlukan. Fluktuasi harus kurang bervariasi dan dalam garis biru jika Anda menggunakan transformasi yang tepat (seri stasioner). Setelah Anda membuat seri stasioner Anda, pikirkan tentang model AR, MA, ARMA, atau ARIMA yang tepat. Dalam proyek saya, saya melakukan hal berikut untuk membantu dalam pemilihan model:

Plot ACF menunjukkan nilai yang relatif besar pada lag 2 ( lihat di mana ini berada di plot Anda ). Terlepas dari itu pada dasarnya menjadi nol pada lag lebih besar dari dua. Ini menunjukkan bahwa model MA (2) mungkin cocok dengan data dan kemudian dengan melihat plot PACF kami segera melihat bahwa korelasinya hampir nol pada semua lag. Ini mungkin menunjukkan bahwa model tidak memiliki bagian AR di atasnya ( sesuaikan ini dengan plot Anda). Oleh karena itu, salah satu model kandidat kami dapat berupa ARIMA (p, d, q) dengan parameter p = 0, d = 1, dan q = 1 or2. Saya juga mencoba beberapa pesanan MA yang lebih tinggi dan mempertimbangkan beberapa kemungkinan untuk memiliki bagian AR dalam model untuk membandingkan hasil dari AIC, AICc, dan BIC dan memutuskan model akhir. langkah selanjutnya Anda harus menjalankan beberapa tes diagnostik untuk memastikan Anda telah memilih model yang benar dan tidak ada pola dalam residu Anda (ACF & PACF untuk residu, nilai p untuk statistik Ljung-Box, histyogram untuk residu, dan Plot QQ). Semoga ini bisa membantu!

soshelp
sumber