Bagaimana gradien kebijakan dapat diterapkan dalam kasus beberapa tindakan berkelanjutan?

Optimalisasi Kebijakan Wilayah Tepercaya (TRPO) dan Optimasi Kebijakan Proksimal (PPO) adalah dua algoritma gradien kebijakan canggih. Saat menggunakan tindakan kontinu tunggal, biasanya, Anda akan menggunakan beberapa distribusi probabilitas (misalnya, Gaussian) untuk fungsi kerugian. Versi...