Saya perlu memperkirakan 4 variabel berikut untuk unit waktu ke-29. Saya memiliki sekitar 2 tahun data historis, di mana 1 dan 14 dan 27 semuanya periode yang sama (atau sepanjang tahun). Pada akhirnya, saya melakukan dekomposisi gaya Oaxaca-Blinder pada , , , dan .
time W wd wc p
1 4.920725 4.684342 4.065288 .5962985
2 4.956172 4.73998 4.092179 .6151785
3 4.85532 4.725982 4.002519 .6028712
4 4.754887 4.674568 3.988028 .5943888
5 4.862039 4.758899 4.045568 .5925704
6 5.039032 4.791101 4.071131 .590314
7 4.612594 4.656253 4.136271 .529247
8 4.722339 4.631588 3.994956 .5801989
9 4.679251 4.647347 3.954906 .5832723
10 4.736177 4.679152 3.974465 .5843731
11 4.738954 4.759482 4.037036 .5868722
12 4.571325 4.707446 4.110281 .556147
13 4.883891 4.750031 4.168203 .602057
14 4.652408 4.703114 4.042872 .6059471
15 4.677363 4.744875 4.232081 .5672519
16 4.695732 4.614248 3.998735 .5838578
17 4.633575 4.6025 3.943488 .5914644
18 4.61025 4.67733 4.066427 .548952
19 4.678374 4.741046 4.060458 .5416393
20 4.48309 4.609238 4.000201 .5372143
21 4.477549 4.583907 3.94821 .5515663
22 4.555191 4.627404 3.93675 .5542806
23 4.508585 4.595927 3.881685 .5572687
24 4.467037 4.619762 3.909551 .5645944
25 4.326283 4.544351 3.877583 .5738906
26 4.672741 4.599463 3.953772 .5769604
27 4.53551 4.506167 3.808779 .5831352
28 4.528004 4.622972 3.90481 .5968299
Saya percaya bahwa dapat diperkirakan oleh plus kesalahan pengukuran, tetapi Anda dapat melihat bahwa selalu jauh melebihi kuantitas itu karena pemborosan, kesalahan aproksimasi, atau pencurian.
Inilah 2 pertanyaan saya.
Pikiran pertama saya adalah mencoba autoregresi vektor pada variabel-variabel ini dengan 1 lag dan variabel waktu dan periode eksogen, tetapi itu sepertinya ide yang buruk mengingat betapa sedikitnya data yang saya miliki. Apakah ada metode deret waktu yang (1) berkinerja lebih baik dalam menghadapi "micro-numerosity" dan (2) akan dapat mengeksploitasi hubungan antara variabel?
Di sisi lain, moduli dari nilai eigen untuk VAR semuanya kurang dari 1, jadi saya tidak berpikir saya perlu khawatir tentang non-stasioneritas (meskipun tes Dickey-Fuller menyarankan sebaliknya). Prediksi tampaknya sebagian besar sejalan dengan proyeksi dari model univariat yang fleksibel dengan tren waktu, kecuali untuk dan , yang lebih rendah. Koefisien pada lag tampaknya sebagian besar masuk akal, meskipun mereka tidak signifikan untuk sebagian besar. Koefisien tren linier adalah signifikan, seperti juga beberapa periode boneka. Namun, apakah ada alasan teoritis untuk memilih pendekatan yang lebih sederhana ini daripada model VAR?
Pengungkapan penuh: Saya mengajukan pertanyaan serupa tentang Statalist tanpa jawaban.
sumber
Jawaban:
Saya mengerti bahwa pertanyaan ini sudah ada di sini selama bertahun-tahun, tetapi tetap saja, ide-ide berikut mungkin berguna:
Jika ada hubungan antara variabel (dan rumus teoritis tidak berfungsi dengan baik), PCA dapat digunakan untuk mencari dependensi (linier) secara sistematis. Saya akan menunjukkan bahwa ini bekerja dengan baik untuk data yang diberikan dalam pertanyaan ini.
Mengingat tidak ada banyak data (total 112 angka), hanya beberapa parameter model yang dapat diperkirakan ( mis. Menyesuaikan efek musiman penuh bukanlah suatu pilihan), dan mencoba model khusus mungkin masuk akal.
Inilah cara saya membuat perkiraan, mengikuti prinsip-prinsip ini:
Langkah 1. Kita bisa menggunakan PCA untuk mengungkapkan dependensi dalam data. Menggunakan R, dengan data disimpan di
x
:Langkah 2. Ada tren yang jelas di PC1:
Saya membuat salinan skor PC dengan tren ini dihapus:
Merencanakan skor PC lain tidak menunjukkan tren yang jelas, jadi saya membiarkannya tidak berubah.
Karena skor PC terpusat, tren melewati pusat massa sampel PC1 dan menyesuaikan tren hanya sesuai dengan memperkirakan satu parameter.
Langkah 3. Plot sebar pasangan tidak menunjukkan struktur yang jelas, jadi saya memodelkan PC sebagai independen:
Langkah 4. Ada periodisitas yang jelas pada PC1, dengan lag 13 (seperti yang disarankan oleh pertanyaan). Ini dapat dilihat dengan berbagai cara. Sebagai contoh, autokorelasi lag 13 tampak berbeda secara signifikan dari 0 dalam suatu korelogram:
(Periodisitas secara visual lebih mencolok ketika memplot data bersama dengan salinan yang digeser.)
lm()
Sebagai tes masuk akal, saya memplot data yang diberikan (hitam), bersama dengan lintasan acak model saya untuk PC1 (biru), berkisar satu tahun ke depan:
Bagian jalur yang disimulasikan biru terlihat seperti kelanjutan data yang wajar. Korelasi untuk PC2 dan PC3 tidak menunjukkan korelasi yang signifikan, jadi saya memodelkan komponen ini sebagai white noise. PC4 memang menunjukkan korelasi, tetapi memberikan kontribusi sangat sedikit terhadap total varians yang tampaknya tidak layak untuk dimodelkan, dan saya juga memodelkan komponen ini sebagai white noise.
Di sini kita telah memasang dua parameter lagi. Ini membawa kita ke total sembilan parameter dalam model (termasuk PCA), yang tampaknya tidak masuk akal ketika kita mulai dengan data yang terdiri dari 112 angka.
Ramalan cuaca. Kita bisa mendapatkan perkiraan numerik dengan tidak mengeluarkan derau (untuk mendapatkan nilai tengah) dan membalikkan PCA:
Ketidakpastian band dapat diperoleh baik secara analitis atau hanya menggunakan Monte Carlo:
sumber