Dalam makalah yang memperkenalkan DQN " Bermain Atari dengan Deep Reinforcement Learning ", disebutkan:
Perhatikan bahwa ketika belajar dengan replay pengalaman, perlu untuk belajar di luar kebijakan (karena parameter kami saat ini berbeda dengan yang digunakan untuk menghasilkan sampel), yang memotivasi pilihan Q-learning.
Saya tidak begitu mengerti apa artinya itu. Bagaimana jika kita menggunakan SARSA dan mengingat tindakan a'
untuk tindakan yang harus kita ambil dalam s'
memori kita, dan kemudian mengambil sampel dari itu dan memperbarui Q seperti yang kita lakukan di DQN? Dan, bisakah metode aktor-kritik (A3C, untuk spesifik) menggunakan replay pengalaman? Jika tidak, mengapa?
sumber
(s, a, r, s')
, dan menarik pengalaman ini untuk memutar ulang; Sekarang anggaplah kebijakan saya saat mengatakan Anda harus mengambila'
dis'
, maka saya tandaQ(s, a)
harusr + Q(s', a')
dan melakukan gradient descent. Saya pikir saya sedang melakukan pengalaman memutar ulang berdasarkan kebijakan. Apakah ada masalah dengan prosesnya?David Silver membahas hal ini dalam ceramah video ini di 46:10 http://videolectures.net/rldm2015_silver_reinforcement_learning/ : Replay pengalaman memilih dari menggunakan kebijakan yang berlaku pada saat itu, dan ini adalah salah satu kelebihannya - ini memungkinkan fungsi Q untuk belajar dari kebijakan sebelumnya, yang memecah korelasi status dan kebijakan terkini dan mencegah jaringan dari "terkunci" ke mode perilaku tertentu.Sebuah s
sumber