Jika kita memiliki rangkaian waktu yang panjang dan beresolusi tinggi, dengan banyak suara, seringkali masuk akal untuk menggabungkan data ke resolusi yang lebih rendah (misalnya, nilai harian hingga bulanan) untuk mendapatkan pemahaman yang lebih baik tentang apa yang terjadi, secara efektif menghilangkan beberapa dari kebisingan.
Saya telah melihat setidaknya satu makalah yang kemudian menerapkan beberapa statistik untuk data agregat, termasuk untuk regresi linier pada variabel terpisah. Apakah itu valid? Saya akan berpikir bahwa proses rata-rata akan mengubah hasilnya sedikit, karena berkurangnya kebisingan.
Secara umum, apakah beberapa statistik dapat diterapkan pada data deret waktu, dan yang lainnya tidak? Jika ya, yang mana? Yang merupakan kombinasi linear, mungkin?
sumber
Jawaban:
Saya pikir pertanyaan seperti pada judul terlalu luas untuk dijawab dengan cara yang bermanfaat, lebih karena mungkin akan tergantung pada metode agregasi dan statistik yang bersangkutan.
Ini bahkan akan berlaku untuk "rata-rata": apakah Anda mencoba mempertahankan bentuk dan intensitas sinyal (mis. Filter Savitzky-Golay), atau apakah Anda mencoba mempertahankan area di bawah sinyal (mis. Loess)?
Statistik terkait kebisingan jelas terpengaruh: itulah biasanya tujuan agregasi.
Modifikasi ini kemungkinan besar adalah tujuan agregasi.
Secara umum, Anda diperbolehkan melakukan banyak hal untuk data Anda, tetapi Anda harus melakukannya
sumber
dengan
Dalam pengaturan non-regresi ada hasil yang menunjukkan bahwa agregasi dapat mengubah properti dari deret waktu. Sebagai contoh jika Anda mengagregasi proses AR (1) yang memiliki memori jangka pendek (korelasi antara dua pengamatan dari deret waktu dengan cepat mati ketika jarak di antara mereka meningkat), Anda bisa mendapatkan proses dengan memori jangka panjang.
Jadi kesimpulannya adalah bahwa validitas aplikasi statistik pada data agregat adalah pertanyaan statistik. Bergantung pada modelnya, Anda dapat membuat hipotesis apakah itu aplikasi yang valid atau tidak.
sumber