Untuk menjawab pertanyaan Anda, izinkan saya terlebih dahulu menuliskan beberapa persamaan penting (dalam).
Persamaan optimalitas Bellman:
v∗(s)=maxaE[Rt+1+γv∗(St+1)∣St=s,At=a]=maxa∑s′p(s′∣s,a)[r(s,a,s′)+γv∗(s′)]
di mana v∗(.) adalah fungsi nilai optimal.
Teorema peningkatan kebijakan ( Pit ):
Biarkan dan pasangan kebijakan deterministik apa pun sehingga, untuk semua ,
Kemudian kebijakan harus sebagus, atau lebih baik dari, . Artinya, ia harus memperoleh pengembalian yang diharapkan lebih besar atau sama dari semua negara . ππ′s∈Sqπ(s,π′(s))≥vπ(s)π′πs∈S:vπ′(s)≥vπ(s)
(temukan di halaman 89 dari Sutton & Barto, Reinforcement learning: An Introduction book)
Kami dapat meningkatkan kebijakan di setiap negara bagian dengan aturan berikut:π
π′(s)=argmaxaqπ(s,a)=argmaxa∑s′p(s′∣s,a)[r(s,a,s′)+γvπ(s′)]
Kebijakan baru kami memenuhi kondisi Pit dan sama baiknya dengan atau lebih baik dari . Jika sama baiknya dengan, tetapi tidak lebih baik dari , maka untuk semua . Dari definisi kami tentang kami menyimpulkan, bahwa:π′ππ′πvπ′(s)=vπ(s)sπ′
vπ′(s)=maxaE[Rt+1+γvπ′(St+1)∣St=s,At=a]=maxa∑s′p(s′∣s,a)[r(s,a,s′)+γvπ′(s′)]
Tetapi persamaan ini sama dengan persamaan optimalitas Bellman sehingga harus sama dengan .vπ′v∗
Dari kata di atas, mudah-mudahan jelas, bahwa jika kita meningkatkan kebijakan dan mendapatkan fungsi nilai yang sama, yang kita miliki sebelumnya, kebijakan baru harus menjadi salah satu kebijakan yang optimal. Untuk informasi lebih lanjut, lihat Sutton & Barto (2012)