Pertanyaan yang diberi tag rl-an-introduction

Mengapa tingkat diskonto dalam algoritma REINFORCE muncul dua kali?

Saya membaca buku Reinforcement Learning: An Introduction oleh Richard S. Sutton dan Andrew G. Barto (draft lengkap, 5 November 2017). Pada halaman 271, pseudo-code untuk Metode Gradient Kebijakan-Gradien Episodik disajikan. Melihat pseudo-code ini saya tidak bisa mengerti mengapa tampaknya...