Kapan memilih SARSA vs. Q Learning

SARSA dan Pembelajaran Q keduanya adalah algoritma pembelajaran penguatan yang bekerja dengan cara yang sama. Perbedaan yang paling mencolok adalah bahwa SARSA memiliki kebijakan sementara Q Learning tidak aktif. Aturan pembaruan adalah sebagai berikut:

Q Belajar:

Q (s_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α [r_{t + 1} + γ max_{a^{'}} Q (s_{t + 1}, a^{'}) - Q (s_{t}, a_{t})]

$Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γ\max_{a'}Q(s_{t+1},a')−Q(s_t,a_t)]$

SARSA:

Q (s_{t}, a_{t}) \leftarrow Q (s_{t}, a_{t}) + α [r_{t + 1} + γ Q (s_{t + 1}, a_{t + 1}) - Q (s_{t}, a_{t})]

$Q(s_t,a_t)←Q(s_t,a_t)+α[r_{t+1}+γQ(s_{t+1},a_{t+1})−Q(s_t,a_t)]$

di mana $s_t,\,a_t$ dan $r_t$ adalah status, aksi, dan hadiah pada langkah $t$ waktu dan $\gamma$ adalah faktor diskon.

Mereka sebagian besar terlihat sama kecuali bahwa di SARSA kami mengambil tindakan nyata dan di Q Learning kami mengambil tindakan dengan hadiah tertinggi.

Adakah pengaturan teoretis atau praktis di mana yang satu lebih suka yang satu daripada yang lain? Saya dapat melihat bahwa mengambil yang maksimum dalam Q Learning dapat menjadi mahal dan bahkan lebih lagi di ruang tindakan berkelanjutan. Tetapi apakah ada hal lain?

reinforcement-learning hh32
sumber

Dalam ruang tindakan berkelanjutan, metode pencarian kebijakan langsung seperti berbagai metode gradien kebijakan umum digunakan sejak — seperti yang telah Anda ketahui — mempertahankan dan mengevaluasi fungsi nilai diskrit untuk ruang tindakan kontinu adalah tidak taktis, terutama ketika ruang tindakan memiliki banyak dimensi (karena kutukan dimensi ).

HelloGoodbye

Jawaban:

Mereka sebagian besar terlihat sama kecuali bahwa di SARSA kami mengambil tindakan nyata dan di Q Learning kami mengambil tindakan dengan hadiah tertinggi.

$a_{t+1}$

$a_{t}$ $r_{t+1}$ $s_{t+1}$

Adakah pengaturan teoretis atau praktis di mana yang satu lebih suka yang satu daripada yang lain?

Q-learning memiliki kelebihan dan kekurangan berikut dibandingkan dengan SARSA:

$\epsilon$ $\epsilon$
Pembelajaran Q (dan pembelajaran di luar kebijakan secara umum) memiliki varians per sampel yang lebih tinggi daripada SARSA, dan mungkin menderita masalah konvergen sebagai hasilnya. Ini muncul sebagai masalah ketika melatih jaringan saraf melalui Q-learning.
SARSA akan mendekati konvergensi yang memungkinkan hukuman dari langkah eksplorasi, sementara Q-learning akan mengabaikannya. Itu membuat SARSA lebih konservatif - jika ada risiko hadiah negatif besar dekat dengan jalur optimal, Q-learning akan cenderung memicu hadiah itu saat menjelajah, sementara SARSA akan cenderung menghindari jalur optimal berbahaya dan hanya perlahan-lahan belajar menggunakannya ketika parameter eksplorasi berkurang. Masalah mainan klasik yang menunjukkan efek ini disebut berjalan tebing .

Dalam praktiknya, poin terakhir dapat membuat perbedaan besar jika kesalahan itu mahal - misalnya Anda melatih robot bukan dalam simulasi, tetapi di dunia nyata. Anda dapat memilih algoritma pembelajaran yang lebih konservatif yang menghindari risiko tinggi, jika ada waktu dan uang yang dipertaruhkan jika robot rusak.

Jika tujuan Anda adalah untuk melatih agen yang optimal dalam simulasi, atau dalam lingkungan yang berbiaya rendah dan cepat, maka Q-learning adalah pilihan yang baik, karena poin pertama (mempelajari kebijakan optimal secara langsung). Jika agen Anda belajar online, dan Anda peduli tentang imbalan yang didapat saat belajar , maka SARSA mungkin merupakan pilihan yang lebih baik.

Neil Slater
sumber

Pertanyaan tindak lanjut

Muppet