Efek Sampling pada Model Time Series

9

Saya bekerja secara luas dengan model deret waktu keuangan, kebanyakan AR (I) MA, dan Kalman.

Satu masalah yang terus saya hadapi adalah frekuensi pengambilan sampel. Awalnya saya berpikir jika menawarkan kemungkinan untuk sampel lebih sering dari proses yang mendasarinya, saya harus mengambil sampel sesering mungkin sehingga saya akan memiliki jumlah sampel yang jauh lebih besar, maka parameter model saya akan memiliki variasi yang lebih sedikit.

Kenyataannya gagasan ini ternyata tidak baik. Apa yang terjadi adalah bahwa jika proses yang mendasarinya tidak menunjukkan variasi yang cukup, meningkatkan frekuensi sampling sebenarnya berarti mendapatkan banyak nilai berulang (sama). Dan membangun model pada nilai-nilai tersebut menghasilkan model dengan koefisien model yang sangat kecil yang tidak memprediksi dengan baik di masa depan (tentu saja definisi "baik" adalah subyektif dan peningkatan frekuensi diperlukan untuk memprediksi lebih banyak langkah sampel di masa depan untuk mencapai langkah waktu yang sama dalam pengaturan frekuensi yang lebih rendah). Model belajar apa yang paling sering ditemui - garis datar.

Saya ingin melakukan pendekatan sampling adaptif, yaitu sampel lebih sering ketika ada variasi, dan lebih jarang ketika tidak ada. Namun ini tidak mudah. Pertama-tama tidak jelas apa jenis bias yang saya perkenalkan dengan melakukan hal itu (dan akan berbeda tergantung pada bagaimana saya memicu sampel / lewati). Kedua, model deret waktu seperti ARIMA tidak cocok untuk langkah sampel yang tidak rata.

Apakah ada cara yang baik untuk mengatasi masalah ini? Ini juga membuat saya bertanya-tanya bagaimana seseorang dapat mencapai transisi mulus antara model waktu kontinu dan model waktu diskrit jika model sangat dipengaruhi oleh frekuensi sampling (terutama ketika langkah waktu semakin kecil dan lebih kecil)? Setiap petunjuk sumber daya eksternal juga akan dihargai.

Terima kasih

Cagdas Ozgenc
sumber
1
"sampel lebih sering ketika ada variasi, dan lebih jarang ketika tidak ada" bisa bekerja dalam sampel, tetapi itu akan sulit digunakan untuk prediksi out-of-sample. Apakah Anda tertarik dengan yang pertama atau yang terakhir? Juga, jika Anda menemukan rezim dengan variasi rendah (atau tanpa variasi sama sekali) diikuti oleh rezim variasi tinggi, Anda tentu saja memerlukan model terpisah untuk keduanya. Kalau tidak, Anda akan memiliki satu model untuk seluruh proses dan pengambilan sampel pada interval / frekuensi yang tidak rata secara intuitif akan tampak suboptimal. Juga, paragraf terakhir memenuhi syarat sebagai pertanyaan yang berdiri sendiri, IMHO.
Richard Hardy
1
Juga, Anda dapat mempertimbangkan membuat judul Anda lebih informatif, sesuatu untuk menunjukkan gagasan pengambilan sampel lebih sering pada titik-titik pergerakan besar.
Richard Hardy
1
@ RichardHardy Saya berpikir tentang model switching rezim. Namun mereka terkenal sulit dilatih. Apakah Anda tahu cara mengidentifikasi dan melatih model pergantian rezim secara dinamis (secara otomatis ditemukan tanpa menentukan titik pergantian rezim sebelumnya)? Bisakah Anda menunjukkan beberapa petunjuk?
Cagdas Ozgenc

Jawaban:

1

ARIMA mungkin tidak cocok dengan tujuan Anda, tetapi model ruang negara adalah: Anda dapat mencicipi sesering yang Anda inginkan (dan pada prinsipnya, semakin banyak semakin baik) dan melakukan pembaruan temporal pada interval yang tetap, karena dinamika proses yang Anda asumsikan mungkin menuntut. Salah satu keindahan model ruang-negara adalah bahwa proses pengamatan terpisah dari proses model, dan interval waktu yang terpisah dapat digunakan untuk masing-masingnya.

F. Tusell
sumber
Itu tidak menyelesaikan masalah saya. Bahkan dalam model ruang keadaan, koefisien model yang pertama kali harus ditentukan. Metodologi pembaruan ruang negara berlaku untuk vektor keadaan itu sendiri tidak untuk matriks koefisien.
Cagdas Ozgenc
Saya tidak mengerti komentar Anda. Jika Anda melemparkan model Anda dalam bentuk ruang-negara Anda dapat menghitung kemungkinan (dengan asumsi normal) menggunakan filter Kalman, terlepas dari frekuensi pengambilan sampel. Memaksimalkan kemungkinan itu, Anda dapat memperkirakan parameter dalam matriks sistem.
F. Tusell
Itu benar jika Anda tahu modelnya di muka. Ketika semua matriks transisi keadaan dan matriks kovarian noise diketahui Anda dapat melakukan pembaruan, dan Anda dapat melakukannya dengan melewatkan langkah-langkah waktu. Ketika Anda hanya diberi data terlebih dahulu, Anda perlu menyimpulkan matriks transisi. Dan matriks-matriks itu akan berbeda antara periode volatilitas tinggi dan periode volatilitas rendah.
Cagdas Ozgenc
1

Saya ingin mengarahkan Anda ke artikel

Ghysels, E, P. Santa-Clara dan R. Valkanov (2006): "Memprediksi volatilitas: Mendapatkan sebagian besar data pengembalian sampel pada frekuensi yang berbeda", Journal of Econometrics, vol. 131, hlm. 59-95.

Para penulis menggunakan teknik yang disebut MIDAS (sampling data campuran) sendiri untuk membandingkan perkiraan volatilitas berdasarkan data sampel pada frekuensi yang berbeda. Memang ini bukan apa yang Anda cari tetapi penulis mengklaim bahwa teknik mereka cocok untuk membandingkan hasil dengan cara yang bermakna. Mungkin ini memberi Anda setidaknya cara kedua menganalisis data Anda. Tampaknya khususnya di bidang ekonomi makro pendekatan ini telah menarik minat.

Dr_Be
sumber
1
Terima kasih. Masalahnya bukan spesifik waktu keuangan. Ambil situasi eksperimental dan sampel dengan frekuensi tinggi dalam dimensi waktu. Anda berakhir dengan garis datar panjang dan model belajar itu, garis datar. Karena pengulangan sampel memadati sampel bermakna yang sebenarnya mencerminkan variasi dalam proses yang mendasarinya. Ini benar-benar bermasalah, dan saya tidak dapat menemukan banyak yang berhubungan dengan topik ini.
Cagdas Ozgenc
0

sampel lebih sering ketika ada variasi, dan lebih jarang ketika tidak ada

Itu bisa bekerja dalam sampel tetapi akan sulit digunakan untuk prediksi out-of-sample, kecuali jika Anda mengetahui cara memprediksi variabilitas itu sendiri (dan itu tidak harus mustahil). Juga, jika Anda menghadapi rezim dengan variasi rendah (atau tanpa variasi sama sekali) diikuti oleh rezim variasi tinggi, Anda tentu saja memerlukan model terpisah untuk keduanya; memiliki satu model untuk seluruh proses dan pengambilan sampel pada interval / frekuensi yang tidak rata secara intuitif akan tampak suboptimal. Anda menyebutkan model pengalihan rezim (saat menjawab komentar saya), dan itu adalah ilustrasi yang bagus apa yang mungkin Anda butuhkan di sini.

Saya harus mengambil sampel sesering mungkin sehingga saya akan memiliki jumlah sampel yang jauh lebih besar, maka parameter model saya akan memiliki variasi yang lebih sedikit.

Ini tidak sepenuhnya benar. Dalam pengaturan deret waktu, seringkali rentang waktu dan bukan jumlah pengamatan yang penting. Misalnya, 120 pengamatan bulanan (rentang 10 tahun) adalah sampel yang lebih informatif dari 209 pengamatan mingguan (rentang 4 tahun) ketika menguji keberadaan unit root; melihat ini Dave Giles' posting blog dan referensi terakhir di dalamnya. Atau pertimbangkan kasus pembatas di mana Anda sering mencicipi sehingga pada dasarnya Anda mengukur hal yang sama beberapa kali. Itu akan meningkatkan ukuran sampel Anda tetapi tidak akan membawa informasi baru, yang mengarah ke kesan palsu perkiraan presisi. Jadi mungkin Anda tidak perlu menghabiskan terlalu banyak waktu untuk meningkatkan frekuensi pengambilan sampel dan membangun beberapa model yang sesuai?

Richard Hardy
sumber
Posting tidak benar-benar menjawab pertanyaan. Pergantian rezim mungkin adalah cara yang harus ditempuh.
Cagdas Ozgenc