Pertanyaan yang diberi tag trpo

Bagaimana gradien kebijakan dapat diterapkan dalam kasus beberapa tindakan berkelanjutan?

Optimalisasi Kebijakan Wilayah Tepercaya (TRPO) dan Optimasi Kebijakan Proksimal (PPO) adalah dua algoritma gradien kebijakan canggih. Saat menggunakan tindakan kontinu tunggal, biasanya, Anda akan menggunakan beberapa distribusi probabilitas (misalnya, Gaussian) untuk fungsi kerugian. Versi...

deep-learning reinforcement-learning trpo