Apakah kebijakan optimal selalu stokastik jika lingkungannya juga stokastik?

Apakah kebijakan optimal selalu stokastik (yaitu, peta dari negara ke distribusi probabilitas atas tindakan) jika lingkungan juga stokastik?

Secara intuitif, jika lingkungan bersifat deterministik (yaitu, jika agen dalam keadaan $s$ dan mengambil tindakan $a$ , maka keadaan selanjutnya $s'$ selalu sama, tidak peduli langkah waktu mana), maka kebijakan yang optimal juga harus deterministik (yaitu, itu harus peta dari negara ke tindakan, dan bukan ke distribusi probabilitas atas tindakan).

reinforcement-learning stochastic-policy deterministic-policy policy environment nbro
sumber

Berikut pertanyaan terkait: mathoverflow.net/q/44677 .

nbro

Jawaban:

Apakah kebijakan optimal selalu stokastik (yaitu, peta dari negara ke distribusi probabilitas atas tindakan) jika lingkungan juga stokastik?

Tidak.

Kebijakan yang optimal umumnya bersifat deterministik kecuali:

Informasi status penting tidak ada (POMDP). Misalnya, dalam peta di mana agen tidak diizinkan untuk mengetahui lokasi pastinya atau mengingat status sebelumnya, dan status yang diberikan tidak cukup untuk membuat perbedaan antara lokasi. Jika tujuannya adalah untuk mencapai lokasi akhir tertentu, kebijakan optimal dapat mencakup beberapa gerakan acak untuk menghindari macet. Perhatikan bahwa lingkungan dalam hal ini bisa menjadi deterministik (dari perspektif seseorang yang dapat melihat seluruh negara), tetapi masih mengarah pada memerlukan kebijakan stokastik untuk menyelesaikannya.
Ada semacam skenario teori permainan minimum, di mana kebijakan deterministik dapat dihukum oleh lingkungan atau agen lain. Pikirkan gunting / kertas / batu atau dilema tahanan.

Secara intuitif, jika lingkungannya deterministik (yaitu, jika agen dalam keadaan 𝑠 dan mengambil tindakan 𝑎, maka keadaan selanjutnya 𝑠 ′ selalu sama, tidak peduli langkah waktu mana), maka kebijakan yang optimal juga harus deterministik (yaitu, itu harus peta dari negara ke tindakan, dan bukan ke distribusi probabilitas atas tindakan).

Itu tampaknya masuk akal, tetapi Anda dapat mengambil intuisi itu lebih jauh dengan metode apa pun berdasarkan fungsi nilai:

Jika Anda telah menemukan fungsi nilai optimal, maka bertindak dengan rakus sehubungan dengan itu adalah kebijakan yang optimal.

Pernyataan di atas hanyalah pernyataan ulang bahasa alami dari persamaan optimalitas Bellman:

v^{*} (s) = {maks}_{Sebuah} \sum_{r, s^{'}} hal (r, s^{'} | s, Sebuah) (r + γ v^{*} (s^{'}))

$v^*(s) = \text{max}_a \sum_{r,s'}p(r,s'|s,a)(r+\gamma v^*(s'))$

yaitu nilai optimal diperoleh ketika selalu memilih tindakan yang memaksimalkan hadiah plus nilai diskon dari langkah berikutnya. Operasi $\text{max}_a$ bersifat deterministik (jika perlu Anda dapat memutus ikatan untuk nilai maks secara deterministik dengan misalnya daftar tindakan yang diurutkan).

Oleh karena itu, setiap lingkungan yang dapat dimodelkan oleh MDP dan dipecahkan dengan metode berbasis nilai (misalnya iterasi nilai, pembelajaran Q) memiliki kebijakan optimal yang deterministik.

Dimungkinkan dalam lingkungan seperti itu bahwa solusi optimal mungkin tidak stokastik sama sekali (yaitu jika Anda menambahkan keacakan ke kebijakan optimal deterministik, kebijakan tersebut akan menjadi sangat buruk). Namun, ketika ada ikatan untuk nilai maksimum untuk satu tindakan atau lebih di satu negara bagian atau lebih maka ada beberapa kebijakan optimal dan deterministik yang setara. Anda dapat membuat kebijakan stokastik yang menggabungkan semua ini dalam kombinasi apa pun, dan itu juga akan optimal.

Neil Slater
sumber

"Mungkin saja dalam lingkungan seperti itu tidak ada kebijakan stokastik yang optimal", maksud Anda kebijakan deterministik?

nbro

@nbro: Tidak, maksud saya sebenarnya tidak ada kebijakan stokastik yang optimal. Ini biasanya terjadi. Pikirkan misalnya pemecah maze sederhana. Jika solusi deterministik optimal adalah jalur tunggal dari awal hingga keluar, menambahkan sembarang acak ke dalamnya akan membuat kebijakan tersebut benar-benar lebih buruk. Ini tidak berubah jika lingkungan menambahkan noise acak (mis. Gerakan terkadang gagal)

Neil Slater

Saya mengerti sekarang. Anda mengatakan bahwa selalu ada kebijakan deterministik, maka kebijakan yang bersifat stokastik dan berasal dari kebijakan deterministik kemungkinan akan lebih buruk daripada kebijakan deterministik optimal.

nbro

@nbro: Ya, itu dia.

Neil Slater

Saya akan mengatakan tidak.

$n$ $p_i$ $i$ $n$

$p_i$

Jelas, jika Anda berada dalam lingkungan di mana Anda bermain melawan agen lain (pengaturan teori permainan), kebijakan optimal Anda tentu akan bersifat stokastik (misalnya, permainan poker).

Adrien Forbu
sumber

p_{i}

$p_i$

p_{i}

$p_i$

i

$i$

nbro

@nbro: Pasti dalam harapan, yang memaksimalkan kebijakan optimal. Kebijakan tidak mencoba untuk menebak generator nomor acak, yang dianggap mustahil (jika dimungkinkan karena beberapa kondisi internal sistem, Anda harus menambahkan keadaan internal itu ke model, atau memperlakukan sebagai POMDP)

Neil Slater

@NeilSlater Ok. Tetapi apakah kesimpulannya akan berubah jika waktu terbatas? Jika Anda memiliki waktu bermain yang terbatas, maka ekspektasinya, saya kira, juga harus mempertimbangkan waktu yang tersedia untuk bermain.

nbro

@nbro: Itu dapat mengubah keputusan Anda, tetapi tidak benar-benar tentang kebijakan yang optimal. Kebijakan optimal untuk lengan bandit masih deterministik, tentang penggunaan lengan terbaik, tetapi Anda tidak mengetahuinya. Ini tentang eksplorasi vs eksploitasi. Anda dapat mengatakan bahwa sebagai memiliki "kebijakan optimal untuk mengeksplorasi masalah bandit" mungkin. Bukan terminologi yang digunakan dalam misalnya Sutton & Barto, tetapi mungkin beberapa parctioners mengatakan itu, saya tidak tahu. . .

Neil Slater

Lingkungan hanya berisi satu negara di mana Anda menghadapi keputusan yang sama berulang-ulang: lengan mana yang harus saya pilih?

Adrien Forbu

Saya sedang memikirkan lanskap probabilitas, di mana Anda menemukan diri Anda sebagai seorang aktor, dengan berbagai puncak dan palung yang tidak diketahui. Pendekatan deterministik yang baik selalu cenderung mengarahkan Anda ke optimal lokal terdekat, tetapi tidak harus ke global optimal. Untuk menemukan optimum global, sesuatu seperti algoritma MCMC akan memungkinkan untuk secara stokastik menerima hasil yang lebih buruk sementara untuk melarikan diri dari optimum lokal dan menemukan optimum global. Intuisi saya adalah bahwa dalam lingkungan stokastik ini juga benar.

Jonathan Moore
sumber