Apakah kebijakan optimal selalu stokastik jika lingkungannya juga stokastik?
Apakah kebijakan optimal selalu stokastik (yaitu, peta dari negara ke distribusi probabilitas atas tindakan) jika lingkungan juga stokastik? Secara intuitif, jika lingkungan bersifat deterministik (yaitu, jika agen dalam keadaan sss dan mengambil tindakan aaa , maka keadaan selanjutnya s′s′s'...