Apa perbedaan antara iterasi nilai dan iterasi kebijakan?

Dalam pembelajaran penguatan, apa perbedaan antara iterasi kebijakan dan iterasi nilai ? Sejauh yang saya pahami, dalam iterasi nilai, Anda menggunakan persamaan Bellman untuk menyelesaikan kebijakan yang optimal, sedangkan, dalam iterasi kebijakan, Anda secara acak memilih kebijakan π, dan...