Membangun rangkaian waktu yang mencakup banyak pengamatan untuk setiap tanggal

11

Saya mencoba menerapkan serangkaian waktu untuk data sampel triwulanan (biomassa hewan) selama periode 10 tahun dengan 3 repetisi per kuartal. Jadi 40 tanggal tetapi 120 total pengamatan.

Saya telah membaca hingga SARIMA'a di Shumway dan Stoffer's Time Series Analysis dan Aplikasi itu serta skim Woodward, et. Analisis Rangkaian Waktu Terapan al., dan pemahaman saya adalah masing-masing model didasarkan pada pengamatan tunggal pada setiap titik dalam rangkaian waktu.

PERTANYAAN: Bagaimana saya bisa memasukkan variasi dalam setiap pengamatan dalam model saya? Saya bisa membuat seri dengan maksud, tetapi saya akan kehilangan variasi pada setiap pengamatan dan saya pikir itu penting untuk pemahaman saya tentang apa yang terjadi.


sumber
SARIMA dapat diperluas ke kasus multivarian, yang mungkin sesuai untuk Anda. Kata kunci dalam hal ini adalah VAR. Ini berarti Anda mengamati vektor angka alih-alih satu angka untuk setiap periode waktu.
mpiktas

Jawaban:

4

Tergantung pada apa yang Anda maksud dengan "3 reps per quarter", sebuah model data panel ( wikipedia ) mungkin masuk akal. Ini berarti bahwa Anda melakukan tiga pengukuran setiap kuartal, satu dari masing-masing dari tiga sumber berbeda yang tetap sama dari waktu ke waktu. Data Anda akan terlihat seperti:

obs quarter value
  A       1   2.2 
  A       2   2.3 
  A       3   2.4 
  B       1   1.8 
  B       2   1.7 
  B       3   1.6 
  C       1   3.3 
  C       2   3.4 
  C       3   3.5 

Jika ini yang Anda lihat, ada sejumlah model untuk bekerja dengan data panel. Berikut adalah presentasi yang layak yang mencakup beberapa R dasar yang akan Anda gunakan untuk melihat data panel. Dokumen ini sedikit lebih dalam, meskipun dari sudut pandang ekonometrika.

Namun, Jika data Anda tidak cukup sesuai dengan metodologi data panel, ada alat lain yang tersedia untuk "kumpulan data". Definisi dari makalah ini (pdf) :

Pengumpulan data berarti analisis statistik menggunakan berbagai sumber data yang berkaitan dengan banyak populasi. Ini mencakup rata-rata, perbandingan, dan interpretasi umum dari informasi tersebut. Skenario dan masalah yang berbeda juga muncul tergantung pada apakah sumber data dan populasi yang terlibat sama / serupa atau berbeda.

Seperti yang Anda lihat, dari definisi itu, teknik yang akan Anda gunakan akan bergantung pada apa yang sebenarnya Anda pelajari dari data Anda.

Jika saya menyarankan tempat bagi Anda untuk memulai, dengan asumsi bahwa tiga undian Anda untuk setiap kuartal konsisten dari waktu ke waktu, saya akan mengatakan mulai dengan menggunakan estimator efek tetap (juga dikenal sebagai estimator dalam) dengan model data panel Anda data.

Untuk contoh saya di atas, kode akan terlihat seperti:

> Panel = data.frame(value=c(2.2,2.3,2.4,1.8,1.7,1.9,3.3,3.4,3.5), 
                     quarter=c(1,2,3,1,2,3,1,2,3), 
                     obs=c("A","A","A","B","B","B","C","C","C"))
> fixed.dum <-lm(value ~ quarter + factor(obs), data=Panel)
> summary(fixed.dum)

Yang memberi kami output berikut:

Call:
lm(formula = value ~ quarter + factor(obs), data = Panel)

Residuals:
         1          2          3          4          5          6          7 
-1.667e-02 -8.940e-17  1.667e-02  8.333e-02 -1.000e-01  1.667e-02 -1.667e-02 
         8          9 
 1.162e-16  1.667e-02 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)   2.13333    0.06055  35.231 3.47e-07 ***
quarter       0.08333    0.02472   3.371 0.019868 *  
factor(obs)B -0.50000    0.04944 -10.113 0.000162 ***
factor(obs)C  1.10000    0.04944  22.249 3.41e-06 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 0.06055 on 5 degrees of freedom
Multiple R-squared: 0.9955, Adjusted R-squared: 0.9928 
F-statistic: 369.2 on 3 and 5 DF,  p-value: 2.753e-06 

Di sini kita dapat dengan jelas melihat pengaruh waktu dalam koefisien pada variabel kuartal, serta efek berada di grup B, atau grup C (sebagai lawan dari grup A).

Semoga ini menunjukkan Anda di suatu tempat di arah yang benar.

Wilduck
sumber
3

Saya pikir ini menarik. Saran saya adalah untuk rata-rata tiga poin data untuk mendapatkan deret waktu yang pas. Seperti yang Anda tunjukkan jika Anda mengabaikannya karena Anda mengambil rata-rata dari tiga pengamatan Anda membuang informasi. Tetapi untuk setiap titik waktu Anda dapat menjumlahkan penyimpangan kuadrat dari mean. Gabungkan jumlah kuadrat tersebut selama semua periode waktu dan bagi dengan n-1 di mana n adalah jumlah total poin yang digunakan dalam perhitungan. Jika Anda memiliki model dengan struktur deret waktu (misalnya tren, komponen musiman, struktur ketergantungan AR) perhitungan ini bisa merupakan estimasi independen dan tidak bias dari varian istilah kesalahan dalam model.

Michael R. Chernick
sumber
1
+1 untuk gagasan bermanfaat yang mudah dijalankan dan secara teoritis valid. Namun, satu koreksi kecil: akan ada nilai diamati selama periode waktu. Perkiraan yang tidak bias dari varians akan membagi jumlah semua penyimpangan kuadrat dengan , daripada atau (salah satu berbeda secara substansial dan salah). Seseorang mungkin harus memplot estimasi varians individu (satu per periode waktu) dari waktu ke waktu, juga, untuk mengevaluasi apakah itu sah untuk menggabungkan semuanya seperti ini. 3nn3n2nn-13n-1
Whuber