Analisis deret waktu vs. pembelajaran mesin?

10

Hanya pertanyaan umum. Jika Anda memiliki data deret waktu, kapankah lebih baik menggunakan teknik deret waktu (alias, ARCH, GARCH, dll.) Di atas teknik pembelajaran mesin / statistik (KNN, regresi)? Jika ada pertanyaan serupa yang ada di crossvalidated, tunjukkan saya ke arah itu - tampak dan tidak dapat menemukannya.

Nagy
sumber
1
Relevan: cs.stackexchange.com/questions/13937/…
Anton Tarasenko

Jawaban:

9

Metode pembelajaran mesin umum mengasumsikan bahwa data Anda independen dan terdistribusi secara identik, yang tidak berlaku untuk data deret waktu. Oleh karena itu mereka berada pada posisi yang kurang menguntungkan dibandingkan dengan teknik deret waktu, dalam hal akurasi. Untuk contoh-contoh ini, lihat pertanyaan-pertanyaan sebelumnya. Mengurutkan deret waktu untuk pembelajaran mesin dan Random forest overfitting .

Tom Minka
sumber
Terimakasih atas tanggapan Anda. Untuk memperjelas poin Anda, tampaknya pembelajaran mesin lebih peduli pada menemukan hubungan dalam data, sedangkan analisis deret waktu lebih berkaitan dengan mengidentifikasi dengan benar penyebab data - yaitu bagaimana faktor-faktor stokastik mempengaruhinya. Apakah kamu setuju dengan ini?
Nagy
4
Tidak, saya tidak akan setuju dengan ringkasan itu.
Tom Minka
4

Francis Diebold baru-baru ini memposting "ML dan Metrik VI: Perbedaan Utama Antara ML dan Ekonometrika TS" di blog-nya. Saya menyediakan versi singkatnya, jadi semua kredit diberikan kepadanya. (Penekanan dalam huruf tebal adalah milikku.)

[S] pembelajaran mesin tatami (ML) dan time series econometrics (TS) memiliki banyak kesamaan. Tapi ada juga perbedaan yang menarik: Penekanan ML pada pemodelan nonparametrik fleksibel non-linear bersyarat berarti tidak memainkan peran besar dalam TS. <...>

[T] di sini sangat sedikit bukti tentang non-linear bersyarat-rata penting dalam dinamika kovarian-stasioner (tidak tren, tidak musiman) dari sebagian besar rangkaian waktu ekonomi. <...> Memang saya hanya dapat memikirkan satu jenis nonlinier bersyarat-rata bersyarat yang telah muncul berulang kali penting untuk (setidaknya beberapa) seri waktu ekonomi: dinamika Markov-switching Hamilton.

[Tentu saja ada gajah non-linear di ruangan: dinamika tipe GARCH gaya Engle. Mereka sangat penting dalam ekonometrik keuangan, dan kadang-kadang juga dalam makro-ekonometrik, tetapi mereka tentang varian bersyarat, bukan cara bersyarat.]

Jadi pada dasarnya hanya ada dua model non-linear penting dalam TS, dan hanya satu dari mereka yang berbicara tentang dinamika bersyarat-rata. Dan yang terpenting, keduanya sangat parametrik, sangat disesuaikan dengan fitur khusus data ekonomi dan keuangan.

Jadi kesimpulannya adalah:

ML menekankan kira-kira fungsi conditional-mean non-linear dengan cara non-parametrik yang sangat fleksibel. Yang ternyata menjadi dua kali tidak perlu di TS: Hanya ada banyak non-linearitas bersyarat-rata yang perlu dikhawatirkan, dan ketika ada kadang-kadang, itu biasanya bersifat sangat khusus terbaik didekati dengan sangat khusus (ketat parametrik) mode .

Saya sarankan membaca seluruh posting asli di sini .

Richard Hardy
sumber
+1. Saya sangat setuju dengan jawaban ini. Metode ML khas dikarakterisasi oleh pemodelan nonparametrik dan memiliki asumsi yang sangat santai sementara model ARMA "parametrik ketat".
Digio
2

Seperti @Tom Minka menunjukkan sebagian besar teknik ML menganggap input iid. Ada beberapa solusi:

  1. Seseorang dapat menggunakan semua sampel deret waktu lampau dalam sistem 'Memori' sebagai satu vektor fitur, yaitu: x = [x (t-1), x (t-2), ... x (tM)]. Namun, ini memiliki 2 masalah: 1) tergantung pada binning Anda, Anda mungkin memiliki vektor fitur yang besar 2- beberapa metode memerlukan fitur dalam vektor fitur menjadi independen, yang tidak terjadi di sini.

  2. Ada banyak teknik ML yang dirancang khusus untuk data deret waktu tersebut, misalnya Hidden Markov Models, yang telah digunakan dengan sangat sukses untuk deteksi kejang, pemrosesan suara, dll ...

  3. Akhirnya, pendekatan yang saya ambil adalah menggunakan teknik 'ekstraksi fitur' untuk mengubah masalah regresi dinamis (yang memiliki elemen waktu) menjadi masalah statis. Misalnya, pendekatan Principal Dynamics Mode (PDM) memetakan vektor fitur masa lalu input ([x (t-1), x (t-2), ... x (tM)]) ke yang statis ([v ( 1), v (2), .. v (L)]) dengan menggabungkan masa lalu dengan bank filter linier khusus sistem (PDM), lihat Marmarelis, 2004 buku atau Marmarelis, Vasilis Z. "Metodologi pemodelan untuk sistem fisiologis nonlinear . " Annals of biomedical engineering 25.2 (1997): 239-251 ...

DankMasterDan
sumber