Statistik apa yang disimpan di bawah agregasi?

12

Jika kita memiliki rangkaian waktu yang panjang dan beresolusi tinggi, dengan banyak suara, seringkali masuk akal untuk menggabungkan data ke resolusi yang lebih rendah (misalnya, nilai harian hingga bulanan) untuk mendapatkan pemahaman yang lebih baik tentang apa yang terjadi, secara efektif menghilangkan beberapa dari kebisingan.

Saya telah melihat setidaknya satu makalah yang kemudian menerapkan beberapa statistik untuk data agregat, termasuk untuk regresi linier pada variabel terpisah. Apakah itu valid? Saya akan berpikir bahwa proses rata-rata akan mengubah hasilnya sedikit, karena berkurangnya kebisingan.r2

Secara umum, apakah beberapa statistik dapat diterapkan pada data deret waktu, dan yang lainnya tidak? Jika ya, yang mana? Yang merupakan kombinasi linear, mungkin?

tidak ada apa-apa101
sumber
Terkait, lihat kekeliruan ekologis .
Andy W
1
mengenai komentar dari @cbeleites, saya pikir ada jawaban teoretis di sini - perluasan saran Anda bahwa kombinasi linear dipertahankan. Namun, dalam hal penerapan praktis, sangat sulit untuk menarik kesimpulan umum tentang validitas suatu pendekatan, dan perlu ada contoh khusus.
Jonathan

Jawaban:

6

Saya pikir pertanyaan seperti pada judul terlalu luas untuk dijawab dengan cara yang bermanfaat, lebih karena mungkin akan tergantung pada metode agregasi dan statistik yang bersangkutan.

  • Ini bahkan akan berlaku untuk "rata-rata": apakah Anda mencoba mempertahankan bentuk dan intensitas sinyal (mis. Filter Savitzky-Golay), atau apakah Anda mencoba mempertahankan area di bawah sinyal (mis. Loess)?

  • Statistik terkait kebisingan jelas terpengaruh: itulah biasanya tujuan agregasi.

Saya telah melihat setidaknya satu makalah yang kemudian menerapkan beberapa statistik pada data agregat [...] Apakah itu valid? Saya akan berpikir bahwa proses rata-rata akan mengubah hasilnya sedikit, karena berkurangnya kebisingan.

Modifikasi ini kemungkinan besar adalah tujuan agregasi.

Secara umum, Anda diperbolehkan melakukan banyak hal untuk data Anda, tetapi Anda harus melakukannya

  • katakan apa yang Anda lakukan (dan lebih disukai juga mengapa Anda melakukannya)
  • menunjukkan kualitas model yang dihasilkan (uji dengan data independen)


n

cbeleites tidak senang dengan SX
sumber
5

YtXτm

Yt=α+βX¯t+ut,(1)

X¯t=1mh=0m1Xtmh.

tX30(t1)+1,...,X30t

Yt=α+βX¯t(w)+ut,(2)

dengan

Xt(w)=h=1m1whXtmh.

whwh=g(h,α)gα

wh=1m

Dalam pengaturan non-regresi ada hasil yang menunjukkan bahwa agregasi dapat mengubah properti dari deret waktu. Sebagai contoh jika Anda mengagregasi proses AR (1) yang memiliki memori jangka pendek (korelasi antara dua pengamatan dari deret waktu dengan cepat mati ketika jarak di antara mereka meningkat), Anda bisa mendapatkan proses dengan memori jangka panjang.

Jadi kesimpulannya adalah bahwa validitas aplikasi statistik pada data agregat adalah pertanyaan statistik. Bergantung pada modelnya, Anda dapat membuat hipotesis apakah itu aplikasi yang valid atau tidak.

mpiktas
sumber