Dalam pembelajaran penguatan, apakah suatu kebijakan selalu deterministik, atau apakah itu suatu distribusi probabilitas atas tindakan (dari mana kami mengambil sampel)? Jika kebijakan bersifat deterministik, mengapa bukan fungsi nilai, yang didefinisikan pada kondisi tertentu untuk kebijakan tertentu sebagai berikut
sebuah output point?
Dalam definisi di atas, kami mengambil harapan. Apa harapan ini berakhir?
Bisakah kebijakan mengarah ke rute yang berbeda?
reinforcement-learning
deterministic-policy
stochastic-policy
MiloMinderbinder
sumber
sumber
Jawaban:
Ada beberapa pertanyaan di sini: 1. Apakah kebijakan selalu deterministik? 2. Jika kebijakan bersifat deterministik maka bukankah nilainya juga harus deterministik? 3. Apa ekspektasi dalam estimasi fungsi nilai? Pertanyaan terakhir Anda tidak terlalu jelas, "Bisakah kebijakan mengarah ke rute yang memiliki nilai saat ini berbeda?" tapi saya pikir maksud Anda: 4. Bisakah kebijakan mengarah ke rute yang berbeda?
Suatu kebijakan adalah suatu fungsi dapat bersifat deterministik atau stokastik. Ini menentukan tindakan apa yang harus diambil mengingat negara tertentu. Distribusi digunakan untuk kebijakan stokastik dan fungsi pemetaan digunakan untuk kebijakan deterministik, di mana adalah himpunan status yang mungkin dan adalah himpunan tindakan yang mungkin .π( A | s ) π: S→ A S SEBUAH
Fungsi nilai tidak deterministik. Nilai (dari suatu negara) adalah hadiah yang diharapkan jika Anda memulai dari kondisi itu dan terus mengikuti kebijakan. Sekalipun kebijakan itu bersifat deterministik, fungsi imbalan dan lingkungan mungkin tidak.
Harapan dalam formula itu adalah atas semua rute yang mungkin dimulai dari negara bagian . Biasanya, rute atau jalur didekomposisi menjadi beberapa langkah, yang digunakan untuk melatih penaksir nilai. Langkah-langkah ini dapat diwakili oleh tuple (status, aksi, hadiah, status berikutnya)s ( s , a , r ,s′)
Ini terkait dengan jawaban 2, kebijakan tersebut dapat mengarah pada jalur yang berbeda (bahkan kebijakan deterministik) karena lingkungan biasanya tidak deterministik.
sumber
Kebijakan dapat bersifat stokastik atau deterministik. Harapannya lebih dari contoh pelatihan mengingat kondisi. Fungsi nilai adalah perkiraan pengembalian, itulah sebabnya ini merupakan harapan.
sumber