Dalam matematika, kata operator dapat merujuk ke beberapa konsep yang berbeda tetapi terkait. Operator dapat didefinisikan sebagai fungsi antara dua ruang vektor, dapat didefinisikan sebagai fungsi di mana domain dan codomain adalah sama, atau dapat didefinisikan sebagai fungsi dari fungsi (yang merupakan vektor) ke fungsi lain (untuk contoh, operator diferensial ), yaitu, fungsi tingkat tinggi (jika Anda terbiasa dengan pemrograman fungsional).
Apa operator Bellman dalam pembelajaran penguatan (RL)? Mengapa kita membutuhkannya? Bagaimana operator Bellman terkait dengan persamaan Bellman di RL?
Jawaban:
Notasi yang akan saya gunakan adalah dari dua kuliah berbeda oleh David Silver dan juga diinformasikan oleh slide ini .
Persamaan Bellman yang diharapkan adalahvπ(s)=∑a∈Aπ(a|s)(Ras+γ∑s′∈SPass′vπ(s′))(1)
Jika kita membiarkannyaPπss′=∑a∈Aπ(a|s)Pass′(2)
dan
Rπs=∑a∈Aπ(a|s)Ras(3)
maka kita bisa menulis ulang (1) sebagai
Ini dapat ditulis dalam bentuk matriks
Atau, lebih kompak,
Perhatikan bahwa kedua sisi(6) adalah n vektor -dimensi. Sinin=|S| adalah ukuran ruang keadaan. Kami kemudian dapat mendefinisikan operatorTπ:Rn→Rn sebagai
untuk apa sajav∈Rn . Ini adalah operator Bellman yang diharapkan.
Demikian pula, Anda dapat menulis ulang persamaan optimalitas Bellman
sebagai operator optimalitas Bellman
Operator Bellman adalah "operator" di mana mereka memetakan dari satu titik ke titik lain dalam ruang vektor nilai-nilai negara,Rn .
Menulis ulang persamaan Bellman sebagai operator berguna untuk membuktikan bahwa algoritma pemrograman dinamis tertentu (misalnya iterasi kebijakan, iterasi nilai) bertemu menjadi titik tetap yang unik. Kegunaan ini datang dalam bentuk badan kerja yang ada dalam teori operator, yang memungkinkan kita untuk menggunakan properti khusus dari operator Bellman.
Secara khusus, fakta bahwa operator Bellman adalah kontraksi memberikan hasil yang bermanfaat, untuk kebijakan apa punπ dan setiap vektor awal v ,
dimanavπ adalah nilai kebijakan π dan v∗ adalah nilai kebijakan yang optimal π∗ . Buktinya karena teorema pemetaan kontraksi .
sumber