Pertanyaan yang diberi tag q-learning

21

Apa hubungan antara metode Q-learning dan kebijakan gradien?

Sejauh yang saya mengerti, Q-learning dan gradien kebijakan (PG) adalah dua pendekatan utama yang digunakan untuk memecahkan masalah RL. Sementara Q-learning bertujuan untuk memprediksi imbalan dari tindakan tertentu yang diambil dalam keadaan tertentu, gradien kebijakan langsung memprediksi...

12

Mengapa DQN memerlukan dua jaringan yang berbeda?

Aku akan melalui ini pelaksanaan DQN dan saya melihat bahwa pada baris 124 dan 125 dua jaringan yang berbeda Q telah diinisialisasi. Dari pemahaman saya, saya pikir satu jaringan memprediksi tindakan yang tepat dan jaringan kedua memprediksi nilai target Q untuk menemukan kesalahan...

reinforcement-learning q-learning dqn

12

Mengapa Q-learning tidak bertemu ketika menggunakan perkiraan fungsi?

Algoritma Q-learning tabular dijamin untuk menemukan fungsi QQQ optimal , Q∗Q∗Q^* , asalkan kondisi berikut (kondisi Robbins-Monro ) mengenai tingkat pembelajaran terpenuhi ∑tαt(s,a)=∞∑tαt(s,Sebuah)=∞\sum_{t} \alpha_t(s, a) = \infty ∑tα2t(s,a)<∞∑tαt2(s,Sebuah)<∞\sum_{t} \alpha_t^2(s, a) <...

reinforcement-learning q-learning deep-rl proofs function-approximation