RNN sangat baik untuk menangkap ketergantungan waktu dari data sekuensial. Namun, apa yang terjadi ketika elemen urutan tidak sama spasi dalam waktu?
Misalnya, input pertama ke sel LSTM terjadi pada hari Senin, lalu tidak ada data dari Selasa hingga Kamis, dan akhirnya input baru untuk masing-masing hari Jumat, Sabtu, Minggu. Salah satu kemungkinan adalah memiliki semacam vektor NULL yang diumpankan untuk Selasa hingga Kamis, tetapi itu tampaknya menjadi solusi konyol, baik karena entri NULL akan mencemari data dan karena itu adalah pemborosan sumber daya.
Ada ide? Bagaimana RNN menangani kasus-kasus seperti itu? Jika ada metode selain RNN, saya menyambut saran itu juga.
Jawaban:
Jika Anda memasukkan beberapa vektor datavt pada waktu t , solusi langsung adalah untuk mendapatkan pengkodean satu-panas hari dalam seminggu, dt , dan kemudian cukup memasukkan ke dalam jaringan gabungan dari vt dan dt . Skema pengkodean waktu / tanggal bisa lebih rumit jika format waktu lebih rumit dari sekadar hari dalam seminggu.
Juga, tergantung pada seberapa jarang dan tidak beraturan data itu, entri NULL harus menjadi solusi yang masuk akal. Saya menduga bahwa gerbang input LSTM akan memungkinkan LSTM untuk membacakan informasi entri NULL dengan benar tanpa mencemari data (memori / keadaan tersembunyi) seperti yang Anda masukkan.
sumber
Saya akan mencoba memasukkan interval waktu secara eksplisit ke dalam model. Misalnya, model deret waktu konvensional seperti AR autoregresif (p) dapat dianggap sebagai diskritisasi model waktu kontinu. Misalnya, model AR (1):
Anda bisa menggambar analogi dengan model deret waktu dari RNN. Contohnya,ϕ dalam proses AR (1) dapat dilihat sebagai bobot memori dalam RNNs. Oleh karena itu, Anda dapat menghubungkan perbedaan waktu antara pengamatan ke fitur Anda dengan cara ini. Saya harus memperingatkan bahwa itu hanya sebuah ide, dan saya belum mencobanya sendiri.
sumber
Saya pikir itu tergantung pada data. Misalnya, jika Anda memproses penghitungan dan Anda lupa mengukurnya pada beberapa hari, maka strategi terbaik adalah menghitung nilai yang hilang (mis., Melalui interpolasi atau proses Gaussian) dan kemudian memproses deret waktu yang terkait dengan RNN. Dengan memasukkan, Anda akan menanamkan pengetahuan.
Jika hilangnya itu bermakna (terlalu panas dan terlalu banyak menghitung pada beberapa hari), maka yang terbaik adalah menyalahkan mungkin dan juga menambahkan vektor indikator yaitu 1 jika nilainya hilang dan 0 sebaliknya.
sumber