Bisakah pembelajaran Penguatan diterapkan untuk perkiraan deret waktu?

Jawaban:

10

Ya, tetapi secara umum itu bukan alat yang baik untuk tugas tersebut, kecuali ada umpan balik yang signifikan antara prediksi dan perilaku sistem yang sedang berlangsung.

Untuk membangun masalah penguatan pembelajaran (RL) di mana layak menggunakan prediksi RL atau algoritma kontrol, maka Anda perlu mengidentifikasi beberapa komponen:

  • Sebuah lingkungan yang berada di salah satu dari banyak negara yang dapat diukur / diamati secara berurutan.

  • Sebuah agen yang dapat mengamati saat negara dan mengambil tindakan dalam urutan yang sama.

  • Evolusi keadaan dalam urutannya harus bergantung pada kombinasi keadaan saat ini dan tindakan yang diambil, dan mungkin juga bersifat stokastik.

  • Harus ada sinyal hadiah yang dapat diamati atau diukur oleh agen RL. Nilai hadiah harus bergantung pada faktor yang sama dengan evolusi negara, tetapi dapat bergantung pada mereka dengan cara yang berbeda.

Kasus umum peramalan deret waktu dapat dibuat agar sesuai dengan ini dengan memperlakukan prediksi sebagai tindakan, memiliki evolusi negara hanya bergantung pada keadaan saat ini (ditambah keacakan) dan hadiah berdasarkan pada keadaan dan tindakan. Ini akan memungkinkan RL untuk diterapkan, tetapi kausalitas hanya mengalir satu arah - dari lingkungan ke model prediksi Anda. Dengan demikian, yang terbaik yang dapat Anda lakukan untuk hadiah misalnya adalah menggunakan beberapa metrik tentang kebenaran prediksi. Konsekuensi untuk prediksi baik atau buruk tidak mempengaruhi lingkungan asli. Pada dasarnya Anda akan berakhir dengan membungkus beberapa model prediksi untuk urutan (seperti jaringan saraf) dalam lapisan RL yang dapat dengan mudah digantikan oleh penanganan kumpulan data dasar untuk masalah pembelajaran yang diawasi.

Salah satu cara Anda secara bermakna dapat memperpanjang masalah peramalan seri menjadi masalah RL adalah dengan meningkatkan ruang lingkup lingkungan untuk memasukkan keputusan yang dibuat berdasarkan prediksi, dan keadaan sistem yang dipengaruhi oleh keputusan tersebut. Misalnya, jika Anda memprediksi harga saham, maka sertakan portofolio dan dana Anda di negara bagian. Demikian juga tindakan berhenti menjadi prediksi, menjadi perintah beli dan jual. Ini tidak akan meningkatkan komponen prediksi harga (dan Anda mungkin lebih baik memperlakukannya sebagai masalah terpisah, menggunakan alat yang lebih tepat - misalnya LSTM), tetapi akan membingkai masalah secara keseluruhan sebagai masalah RL.

Neil Slater
sumber