Mengapa algoritma iterasi kebijakan menyatu dengan fungsi kebijakan dan nilai yang optimal?
Saya membaca catatan kuliah Andrew Ng tentang pembelajaran penguatan, dan saya mencoba memahami mengapa iterasi kebijakan digabungkan ke fungsi nilai optimal dan kebijakan optimal .V∗V∗V^*π∗π∗\pi^* Ingat iterasi kebijakan adalah: Inisialisasi π secara acakUlangi {L e t V : = Vπ \ untuk kebijakan...