Perbandingan rangkaian seri waktu

10

Saya memiliki tiga set data deret waktu yang ingin saya bandingkan. Mereka telah diambil dalam 3 periode terpisah sekitar 12 hari. Mereka adalah rata-rata, maksimum dan minimum jumlah kepala yang diambil di perpustakaan perguruan tinggi selama minggu-minggu final. Saya harus melakukan mean, max dan min karena hitungan head per jam tidak kontinu (lihat kesenjangan data Reguler dalam seri waktu ).

Sekarang kumpulan data terlihat seperti ini. Ada satu titik data (rata-rata, maks atau minimum) per malam, selama 12 malam. Ada 3 semester data diambil untuk, hanya dalam periode 12 hari yang memprihatinkan. Jadi misalnya, Spring 2010, Fall 2010, dan Mei 2011 masing-masing memiliki satu set 12 poin. Berikut contoh bagan:

masukkan deskripsi gambar di sini

Saya telah melakukan overlay semester karena saya ingin melihat bagaimana pola berubah dari semester ke semester. Namun, seperti yang telah saya ketahui di utas terkait , bukan ide yang bagus untuk menampar semester secara langsung karena tidak ada data di antaranya.

Pertanyaannya kemudian: Apa teknik matematika yang dapat saya gunakan untuk membandingkan pola kehadiran untuk setiap semester? Apakah ada sesuatu yang khusus untuk rangkaian waktu yang harus saya lakukan, atau bisakah saya mengambil persen perbedaan saja? Tujuan saya adalah mengatakan bahwa penggunaan perpustakaan selama ini naik atau turun; Saya tidak yakin teknik apa yang harus saya gunakan untuk menunjukkannya.

induvidyul
sumber

Jawaban:

8

ANOVA dengan efek tetap (atau yang setara dengan regresi liniernya) menyediakan serangkaian metode yang kuat untuk menganalisis data ini. Sebagai ilustrasi, berikut adalah dataset yang konsisten dengan plot rata-rata HC per malam (satu plot per warna):

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384 
     2 |       208        193        156 |       557 
     3 |       287        218        257 |       762 
     4 |       256        267        271 |       794 
     5 |       169        143        163 |       475 
     6 |       166        163        163 |       492 
     7 |       237        214        279 |       730 
     8 |       588        455        457 |     1,500 
     9 |       443        428        397 |     1,268 
    10 |       464        408        441 |     1,313 
    11 |       470        473        464 |     1,407 
    12 |       171        185        196 |       552 
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234 

ANOVA countmenentang daydan colormenghasilkan tabel ini:

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051   
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206   

Nilai modelp 0,0000 menunjukkan kecocokan sangat signifikan. Nilai dayp 0,0000 juga sangat signifikan: Anda dapat mendeteksi perubahan sehari-hari. Namun, colornilai-p (semester) 0,2001 tidak boleh dianggap signifikan: Anda tidak dapat mendeteksi perbedaan sistematis di antara tiga semester, bahkan setelah mengendalikan variasi harian.

Tes Tukey HSD ("perbedaan signifikan jujur") mengidentifikasi perubahan signifikan berikut (antara lain) dalam cara sehari-hari (terlepas dari semester) pada tingkat 0,05:

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

Ini mengkonfirmasi apa yang bisa dilihat mata dalam grafik.

Karena grafik melompati sedikit, tidak ada cara untuk mendeteksi korelasi harian (korelasi serial), yang merupakan inti dari seluruh analisis deret waktu. Dengan kata lain, jangan repot-repot dengan teknik deret waktu: tidak ada cukup data di sini bagi mereka untuk memberikan wawasan yang lebih besar.

Orang harus selalu bertanya-tanya berapa banyak percaya hasil analisis statistik. Berbagai diagnostik untuk heteroskedastisitas (seperti tes Breusch-Pagan ) tidak menunjukkan apa pun yang tidak diinginkan. Sisa-sisa tidak terlihat sangat normal - mereka mengelompok menjadi beberapa kelompok - sehingga semua nilai-p harus diambil dengan sebutir garam. Namun demikian, mereka tampaknya memberikan panduan yang masuk akal dan membantu mengukur arti data yang bisa kita dapatkan dari melihat grafik.

Anda dapat melakukan analisis paralel pada minimum harian atau maksimum harian. Pastikan untuk memulai dengan plot yang sama sebagai panduan dan untuk memeriksa hasil statistik.

whuber
sumber
+1, untuk demonstrasi teknik sederhana namun kuat. Saya paling penasaran bagaimana Anda bisa mengekstraksi nilai dari grafik? Beberapa perangkat lunak, atau hukuman bagi siswa yang berperilaku buruk? :)
mpiktas
1
@mp Saya mendigitalkan poin di atas tangkapan layar grafik, mengekstrak koordinat mereka dengan perangkat lunak GIS, mengubah koordinat dengan spreadsheet, lalu mengimpornya ke dalam paket statistik. Hanya perlu beberapa menit. Metode ini bisa berguna ketika satu-satunya data yang Anda miliki adalah dalam bentuk bagan atau peta.
whuber
@whuber Itu keren! Saya tidak menyadari hal ini.
suncoolsu
@whuber Saya bertanya-tanya apa efeknya memiliki 3 set 12 bacaan autokorelasi dibandingkan dengan 36 pengamatan independen. Saya akan berpikir bahwa kita benar-benar tidak memiliki kebebasan 35 derajat untuk dibagikan. Probabilitas yang Anda renungkan didasarkan pada rasio variabel chi-square non-sentral terhadap variabel chi-square sentral. Apakah ada sesuatu yang saya lewatkan di sini? Kerja bagus untuk mengekstraksi angka dari plot. Apakah ada program tertentu yang dapat Anda rujuk untuk membantu kami dalam hal ini.
IrishStat
1
@Irish Biarkan menjadi rata-rata (di antara warna) untuk satu hari dan rata-rata untuk yang lain. Saya menganggap homoseksualitas; yaitu, ( tidak diketahui). Perbandingan yang diinginkan ("penggunaan ... naik atau turun") menguji apakah . Tanpa korelasi, . Dengan korelasi antara dan , . Ketika , varians sebenarnya kurang dari yang diasumsikan dalam model ANOVA. Akibatnya t-statistik, F-statistik, dan Tukey HSD semua harus lebihy V a r ( x ) = V a r ( y ) = σ 2 σ x - y = 0 V a r ( x - y ) = 2 σ 2 ρ x y V a r ( x - y ) = 2 ( 1 - ρ ) σ 2 ρ > 0xyVar(x)=Var(y)=σ2σxy=0Var(xy)=2σ2ρxyVar(xy)=2(1ρ)σ2ρ>0signifikan daripada yang muncul.
whuber
0

Sarah, Ambil 36 angka Anda (12 nilai per siklus; 3 siklus) dan buat model regresi dengan 11 indikator yang mencerminkan kemungkinan efek semester-per-semester dan kemudian identifikasi Seri Intervensi yang diperlukan (Pulsa, Level Shift) yang diperlukan untuk membuat rata-rata residu menjadi 0,0 di mana-mana atau setidaknya tidak berbeda secara statistik dari 0,0. Sebagai contoh jika Anda mengidentifikasi pergeseran level pada periode 13 ini mungkin menyarankan perbedaan yang signifikan secara statistik antara rata-rata semester pertama yaitu nilai 12 pertama) dibandingkan rata-rata dari dua semester terakhir (24 nilai terakhir). Anda mungkin dapat menarik kesimpulan atau menguji hipotesis tidak ada minggu efek semester. Paket seri waktu yang baik mungkin bermanfaat bagi Anda dalam hal ini. Gagal bahwa Anda mungkin perlu menemukan seseorang untuk memberikan bantuan di arena analitik ini.

IrishStat
sumber
1
Ini terdengar seperti deskripsi ANOVA dua arah (hari dengan siklus) diikuti oleh tes yang direncanakan dari 11 pasang hari. Perangkat lunak stats lama yang polos kemungkinan akan lebih fleksibel dan kuat untuk digunakan daripada perangkat lunak time series khusus; tentu akan lebih mudah. BTW, indeks adalah hari (memasuki periode ujian), bukan minggu semester.
whuber
Bisakah saya juga menggunakan ANOVA untuk membandingkan maksimum dan minimum per hari? Atau apakah ini hanya berlaku untuk sarana?
induvidyul
@ Sarah Ini mungkin berlaku untuk minimum dan maksimal. Namun, statistik tersebut cenderung jauh lebih bervariasi daripada artinya, sehingga kecil kemungkinan Anda akan dapat mendeteksi perubahan di dalamnya dari waktu ke waktu atau di antara semester. Grafik Anda memperjelas bahwa cara-cara tersebut berbeda secara signifikan. Jika Anda bisa, buat ANOVA tiga arah dengan memasukkan jam hari dan menggunakan penghitungan jam asli daripada cara harian mereka.
whuber
@whuber: Saya telah diberitahu bahwa merangkai bersama data per jam tidak dapat digunakan, karena mereka hanya direkam pukul 12: 00-06: 00. Lihat pertanyaan saya sebelumnya. Kesenjangan data reguler dalam suatu rangkaian waktu .
induvidyul
@Sarah Saya berbicara tentang sesuatu yang berbeda: model ketergantungan dalam tiga faktor: periode (3 di antaranya), hari ke dalam periode (12 di antaranya), dan jam di hari (6 di antaranya). Anda bahkan dapat menjelaskan korelasi di antara jam-jam tersebut, tetapi itu mungkin tidak diperlukan untuk tujuan Anda. Apapun, saya tidak menganjurkan melihat setiap periode sebagai serangkaian terputus dari 12 * 24 hitungan: ada terlalu banyak data yang hilang.
whuber