Apa itu Pembelajaran Penguatan Berulang

20

Baru-baru ini saya menemukan kata "Pembelajaran Penguatan Berulang". Saya mengerti apa itu "Jaringan Syaraf Berulang" dan apa itu "Pembelajaran Penguatan", tetapi tidak dapat menemukan banyak informasi tentang apa itu "Pembelajaran Penguatan Berulang".

Dapatkah seseorang menjelaskan kepada saya apa yang dimaksud dengan "Pembelajaran Penguatan Berulang" dan apa perbedaan antara "Pembelajaran Penguatan Berulang" dan "Pembelajaran Penguatan" yang normal seperti algoritma Q-Learning.

Nol negatif
sumber

Jawaban:

15

Apa itu "pembelajaran penguatan berulang"?

Recurrent reinforcement learning ( RRL ) pertama kali diperkenalkan untuk pelatihan sistem perdagangan jaringan saraf pada tahun 1996. "Berulang" berarti bahwa output sebelumnya dimasukkan ke dalam model sebagai bagian dari input. Segera diperluas untuk perdagangan di pasar FX.

The RRL teknik telah ditemukan untuk menjadi teknik pembelajaran mesin sukses untuk membangun sistem perdagangan keuangan.

Apa perbedaan antara "pembelajaran penguatan berulang" dan "pembelajaran penguatan" normal (seperti algoritma Q-Learning)?

The RRL pendekatan berbeda jelas dari pemrograman dinamis dan penguatan algoritma seperti TD-learning dan Q-learning , yang mencoba untuk memperkirakan nilai fungsi untuk masalah kontrol.

The RRL framework memungkinkan untuk menciptakan sederhana dan representasi masalah elegan, menghindari kutukan Bellman tentang dimensi penawaran keuntungan yang menarik dalam efisiensi dan:

RRL menghasilkan aksi nyata dihargai (portofolio bobot) secara alami tanpa menggunakan metode diskritisasi di Q-learning .

RRL memiliki kinerja yang lebih stabil dibandingkan dengan Q-learning ketika dihadapkan pada dataset bising. Algoritma Q-learning lebih sensitif terhadap pemilihan fungsi nilai (mungkin) karena sifat rekursif dari optimasi dinamis, sedangkan algoritma RRL lebih fleksibel dalam memilih fungsi objektif dan menghemat waktu komputasi.

U()

Di sini Anda akan menemukan implementasi Matlab dari algoritma RRL.


Referensi

Pembelajaran Penguatan untuk Perdagangan

Pembelajaran Penguatan untuk Sistem Perdagangan dan Portofolio

Perdagangan FX melalui pembelajaran penguatan yang berulang

Perdagangan Saham dengan Recurrent Reinforcement Learning (RRL)

Perdagangan Algoritma menggunakan Q-Learning dan Recurrent Reinforcement Learning

MENJELAJAHI ALGORITMA UNTUK PERDAGANGAN FX OTOMATIS - PEMBANGUNAN MODEL HYBRID

Anton Danilov
sumber
@AntonDanilov Saya tidak yakin apakah Anda mengetahui hal ini. Orang yang datang dengan ide ini (ref pertama Anda, J Moody) telah menjalankan dana menggunakan algo ini - dan kinerjanya jauh dari spektakuler.
horaceT
Jadi, baik untuk diketahui tetapi bagaimana cara menjawab changemy
Anton Danilov
2

Perbedaan (Jauh) RL Berulang, adalah bahwa fungsi memetakan pengamatan agen untuk tindakan outputnya adalah Jaringan Syaraf Berulang.

Jaringan Berulang adalah jenis jaringan saraf yang memproses setiap pengamatan secara berurutan, dengan cara yang sama untuk setiap langkah waktu.

Makalah asli: Pembelajaran Q Berulang Dalam untuk MDP yang Dapat Diamati Sebagian

LearnOPhile
sumber