Apakah kebijakan optimal selalu stokastik (yaitu, peta dari negara ke distribusi probabilitas atas tindakan) jika lingkungan juga stokastik?
Secara intuitif, jika lingkungan bersifat deterministik (yaitu, jika agen dalam keadaan dan mengambil tindakan , maka keadaan selanjutnya selalu sama, tidak peduli langkah waktu mana), maka kebijakan yang optimal juga harus deterministik (yaitu, itu harus peta dari negara ke tindakan, dan bukan ke distribusi probabilitas atas tindakan).
Jawaban:
Tidak.
Kebijakan yang optimal umumnya bersifat deterministik kecuali:
Informasi status penting tidak ada (POMDP). Misalnya, dalam peta di mana agen tidak diizinkan untuk mengetahui lokasi pastinya atau mengingat status sebelumnya, dan status yang diberikan tidak cukup untuk membuat perbedaan antara lokasi. Jika tujuannya adalah untuk mencapai lokasi akhir tertentu, kebijakan optimal dapat mencakup beberapa gerakan acak untuk menghindari macet. Perhatikan bahwa lingkungan dalam hal ini bisa menjadi deterministik (dari perspektif seseorang yang dapat melihat seluruh negara), tetapi masih mengarah pada memerlukan kebijakan stokastik untuk menyelesaikannya.
Ada semacam skenario teori permainan minimum, di mana kebijakan deterministik dapat dihukum oleh lingkungan atau agen lain. Pikirkan gunting / kertas / batu atau dilema tahanan.
Itu tampaknya masuk akal, tetapi Anda dapat mengambil intuisi itu lebih jauh dengan metode apa pun berdasarkan fungsi nilai:
Jika Anda telah menemukan fungsi nilai optimal, maka bertindak dengan rakus sehubungan dengan itu adalah kebijakan yang optimal.
Pernyataan di atas hanyalah pernyataan ulang bahasa alami dari persamaan optimalitas Bellman:
yaitu nilai optimal diperoleh ketika selalu memilih tindakan yang memaksimalkan hadiah plus nilai diskon dari langkah berikutnya. OperasimaksSebuah bersifat deterministik (jika perlu Anda dapat memutus ikatan untuk nilai maks secara deterministik dengan misalnya daftar tindakan yang diurutkan).
Oleh karena itu, setiap lingkungan yang dapat dimodelkan oleh MDP dan dipecahkan dengan metode berbasis nilai (misalnya iterasi nilai, pembelajaran Q) memiliki kebijakan optimal yang deterministik.
Dimungkinkan dalam lingkungan seperti itu bahwa solusi optimal mungkin tidak stokastik sama sekali (yaitu jika Anda menambahkan keacakan ke kebijakan optimal deterministik, kebijakan tersebut akan menjadi sangat buruk). Namun, ketika ada ikatan untuk nilai maksimum untuk satu tindakan atau lebih di satu negara bagian atau lebih maka ada beberapa kebijakan optimal dan deterministik yang setara. Anda dapat membuat kebijakan stokastik yang menggabungkan semua ini dalam kombinasi apa pun, dan itu juga akan optimal.
sumber
Saya akan mengatakan tidak.
Jelas, jika Anda berada dalam lingkungan di mana Anda bermain melawan agen lain (pengaturan teori permainan), kebijakan optimal Anda tentu akan bersifat stokastik (misalnya, permainan poker).
sumber
Saya sedang memikirkan lanskap probabilitas, di mana Anda menemukan diri Anda sebagai seorang aktor, dengan berbagai puncak dan palung yang tidak diketahui. Pendekatan deterministik yang baik selalu cenderung mengarahkan Anda ke optimal lokal terdekat, tetapi tidak harus ke global optimal. Untuk menemukan optimum global, sesuatu seperti algoritma MCMC akan memungkinkan untuk secara stokastik menerima hasil yang lebih buruk sementara untuk melarikan diri dari optimum lokal dan menemukan optimum global. Intuisi saya adalah bahwa dalam lingkungan stokastik ini juga benar.
sumber