Baru-baru ini saya menemukan kata "Pembelajaran Penguatan Berulang". Saya mengerti apa itu "Jaringan Syaraf Berulang" dan apa itu "Pembelajaran Penguatan", tetapi tidak dapat menemukan banyak informasi tentang apa itu "Pembelajaran Penguatan Berulang".
Dapatkah seseorang menjelaskan kepada saya apa yang dimaksud dengan "Pembelajaran Penguatan Berulang" dan apa perbedaan antara "Pembelajaran Penguatan Berulang" dan "Pembelajaran Penguatan" yang normal seperti algoritma Q-Learning.
sumber
Perbedaan (Jauh) RL Berulang, adalah bahwa fungsi memetakan pengamatan agen untuk tindakan outputnya adalah Jaringan Syaraf Berulang.
Jaringan Berulang adalah jenis jaringan saraf yang memproses setiap pengamatan secara berurutan, dengan cara yang sama untuk setiap langkah waktu.
Makalah asli: Pembelajaran Q Berulang Dalam untuk MDP yang Dapat Diamati Sebagian
sumber