Memesan seri waktu untuk pembelajaran mesin

14

Setelah membaca salah satu "Tip penelitian" RJ Hyndman tentang validasi silang dan rangkaian waktu, saya kembali ke pertanyaan lama saya yang akan saya coba rumuskan di sini. Idenya adalah bahwa dalam masalah klasifikasi atau regresi, pemesanan data tidak penting, dan karenanya k- lipatan validasi silang dapat digunakan. Di sisi lain, dalam deret waktu, pemesanan data jelas sangat penting.

Namun, bila menggunakan model mesin seri waktu perkiraan belajar, strategi umum adalah untuk membentuk kembali seri ke dalam satu set "input-output vektor" yang, untuk waktu t , memiliki bentuk ( y t - n + 1 , . . . , Y t - 1 , y t ; y t + 1 ) .{y1,...,yT}t(yt-n+1,...,yt-1,yt;yt+1)

Sekarang, setelah pembentukan kembali ini telah dilakukan, dapatkah kita mempertimbangkan bahwa set "vektor input-output" yang dihasilkan tidak perlu dipesan? Jika kita menggunakan, misalnya, jaringan saraf umpan-maju dengan n input untuk "mempelajari" data ini, kita akan mencapai hasil yang sama tidak peduli urutan di mana kita menunjukkan vektor ke model. Dan oleh karena itu, dapatkah kita menggunakan validasi silang k-fold dengan cara standar, tanpa perlu menyesuaikan model setiap kali?

jla
sumber

Jawaban:

2

Jawaban untuk pertanyaan ini adalah bahwa ini akan berfungsi dengan baik selama urutan model Anda ditentukan dengan benar, karena kemudian kesalahan dari model Anda akan independen.

Makalah ini di sini menunjukkan bahwa jika model memiliki validasi silang yang buruk akan meremehkan seberapa buruk sebenarnya. Dalam semua kasus lain, validasi silang akan melakukan pekerjaan dengan baik, khususnya, pekerjaan yang lebih baik daripada evaluasi out-of-sample yang biasanya digunakan dalam konteks deret waktu.

Christoph Bergmeir
sumber
6

Pertanyaan menarik!

Pendekatan yang Anda gambarkan tentu sangat banyak digunakan oleh orang-orang yang menggunakan metode ML standar yang memerlukan vektor fitur dengan panjang tetap atribut, untuk menganalisis data deret waktu.

Dalam posting yang Anda tautkan, Hyndman menunjukkan bahwa ada korelasi antara vektor data yang dibentuk kembali (sampel). Ini bisa menjadi masalah, karena k-CV (atau metode evaluasi lainnya yang membagi data secara acak ke dalam set pelatihan dan pengujian) mengasumsikan bahwa semua sampel independen. Namun, saya tidak berpikir masalah ini relevan untuk kasus metode ML standar, yang memperlakukan atribut secara terpisah.

n=3, sehingga beberapa vektor data pertama (diberi label menurut abjad) adalah:

SEBUAH:(y1,y2,y3;y4)B:(y2,y3,y4;y5)C:(y3,y4,y5;y6)

Jelas, A dan B memiliki istilah seperti y2bersama. Tetapi, untuk A, ini adalah nilai dari atribut kedua sedangkan untuk B ini adalah nilai dari atribut pertama.

Penyangga Irlandia
sumber
1
Saya setuju dengan Anda bahwa beberapa algoritma ML mungkin kebal terhadap masalah sampel berkorelasi tinggi karena mereka memperlakukan atribut sepenuhnya secara terpisah. Tetapi algoritma tersebut juga tidak terlalu baik untuk pekerjaan time series. Algoritma ML yang menjanjikan untuk rangkaian waktu harus dapat memperhatikan bahwa atribut # 1 dan atribut # 2 sebenarnya agak mirip, jika tidak, mereka akan menjadi buruk pada prediksi (prediksi akan kira-kira sama ketika Anda menggeser waktu dengan 1). Algoritma tersebut juga akan menderita karena masalah yang disebutkan oleh Hyndman.
Maks.