Apakah ada yang tahu contoh Algoritma Williams yang diusulkan dalam Makalah "Kelas algoritma estimasi gradien untuk pembelajaran penguatan dalam jaringan saraf" http://incompleteideas.net/sutton/williams-92.pdf
reinforcement-learning
Alex Gao
sumber
sumber
Jawaban:
Dari kuliah RL David Silver tentang metode Gradient Kebijakan , slide 21 di sini adalah kode semu untuk algoritma Reinforce episodik, yang pada dasarnya adalah metode berbasis gradien di mana pengembalian yang diharapkan diambil sampel langsung dari episode (sebagai lawan memperkirakannya dengan beberapa yang dipelajari fungsi). Dalam hal ini pengembalian yang diharapkan sebenarnya adalah hadiah total episodik untuk langkah tersebut, .Gt
inisialisasiθ
untuk setiap episode { } sampel dari kebijakan dos1,a1,r2...sT−1,aT−1,rT πθ
untuk t = 1 hingga T - 1 lakukan
berakhir untuk
berakhir untuk
Algoritma ini menderita varians yang tinggi karena penghargaan sampel dapat sangat berbeda dari satu episode ke episode lainnya karena itu algoritma ini biasanya digunakan dengan baseline yang dikurangi dari kebijakan. Berikut adalah penjelasan yang lebih rinci lengkap dengan contoh kode.
sumber
Algoritma REINFORCE untuk pembelajaran penguatan kebijakan-gradien adalah algoritma gradien stokastik sederhana. Ini bekerja dengan baik ketika episode cukup pendek sehingga banyak episode dapat disimulasikan. Metode nilai-fungsi lebih baik untuk episode yang lebih lama karena mereka dapat mulai belajar sebelum akhir satu episode.
sumber