Saya mencoba untuk memahami penguatan pembelajaran dan proses keputusan markov (MDP) dalam kasus di mana jaringan syaraf sedang digunakan sebagai penaksir fungsi.
Saya mengalami kesulitan dengan hubungan antara MDP di mana lingkungan dieksplorasi secara probabilistik, bagaimana peta ini kembali ke parameter pembelajaran dan bagaimana solusi / kebijakan akhir ditemukan.
Apakah saya benar berasumsi bahwa dalam kasus pembelajaran Q, jaringan saraf pada dasarnya bertindak sebagai penduga fungsi untuk nilai-q itu sendiri sehingga banyak langkah di masa depan? Bagaimana cara peta ini memperbarui parameter melalui backpropagation atau metode lain?
Juga, begitu jaringan telah belajar bagaimana memprediksi hadiah di masa depan, bagaimana ini cocok dengan sistem dalam hal benar-benar membuat keputusan? Saya berasumsi bahwa sistem terakhir tidak mungkin membuat transisi keadaan secara probabilistik.
Terima kasih
sumber
Jawaban:
Dalam Q-Learning, pada setiap langkah Anda akan menggunakan pengamatan dan penghargaan untuk memperbarui fungsi nilai-Q Anda:
Anda benar dalam mengatakan bahwa jaringan saraf hanyalah perkiraan fungsi untuk fungsi nilai-q.
Secara umum, bagian perkiraan hanyalah masalah pembelajaran standar yang diawasi. Jaringan Anda menggunakan (s, a) sebagai input dan outputnya adalah nilai-q. Saat nilai-q disesuaikan, Anda perlu melatih sampel baru ini ke jaringan. Namun, Anda akan menemukan beberapa masalah saat menggunakan sampel berkorelasi dan SGD akan menderita.
Jika Anda melihat kertas DQN, situasinya sedikit berbeda. Dalam hal itu, apa yang mereka lakukan adalah meletakkan sampel dalam vektor (replay pengalaman). Untuk mengajarkan jaringan, mereka mengambil sampel tupel dari vektor, bootstrap menggunakan informasi ini untuk mendapatkan nilai q baru yang diajarkan ke jaringan. Ketika saya mengatakan mengajar, maksud saya menyesuaikan parameter jaringan menggunakan keturunan gradien stokastik atau pendekatan optimasi favorit Anda. Dengan tidak mengajarkan sampel dalam urutan yang dikumpulkan oleh kebijakan, dekorasi akan berhubungan dengan mereka dan yang membantu dalam pelatihan.
Terakhir, dalam rangka untuk membuat keputusan tentang negara , Anda memilih tindakan yang menyediakan tertinggi q-nilai:s
Jika fungsi Q-value Anda telah dipelajari sepenuhnya dan lingkungannya diam, tidak apa-apa untuk menjadi rakus pada saat ini. Namun, saat belajar, Anda diharapkan menjelajah. Ada beberapa pendekatan yang menjadi -salah satu cara termudah dan paling umum.ε
sumber