Dalam pembelajaran penguatan, tujuan kami adalah untuk mengoptimalkan fungsi nilai-negara atau fungsi-nilai tindakan, yang didefinisikan sebagai berikut:
Namun, ketika kami menggunakan metode pembelajaran Q untuk mendapatkan strategi yang optimal, metode pembaruannya seperti berikut:
Pertanyaanku adalah:
mengapa dalam Q-learning tidak ada probabilitas transisi . Apakah ini berarti kita tidak memerlukan ini saat memodelkan MDP?
Untuk kejelasan, saya pikir Anda harus mengganti dengan karena hanya ada satu fungsi nilai tindakan, kami hanya mengevaluasi Q pada tindakan di negara berikutnya. Notasi ini juga mengisyaratkan di mana terletak.maxa(Q′,a) maxa(Q(S′,a)) p(s′|s,a)
Secara intuitif, adalah properti dari lingkungan. Kami tidak mengontrol cara kerjanya tetapi hanya mengambil sampel darinya. Sebelum kita menyebut pembaruan ini, pertama-tama kita harus mengambil tindakan A saat dalam keadaan S. Proses melakukan ini memberi kita hadiah dan mengirimkan kita ke keadaan berikutnya. Status selanjutnya yang Anda gunakan diambil dari menurut definisi itu. Jadi, dalam pembaruan Q-learning kita pada dasarnya menganggap adalah 1 karena di situlah kita berakhir.p(s′|s,a) p(s′|s,a) p(s′|s,a)
Ini ok karena ini merupakan metode berulang di mana kami memperkirakan fungsi nilai tindakan optimal tanpa mengetahui dinamika penuh lingkungan dan lebih khusus lagi nilai . Jika Anda memiliki model lingkungan yang memberikan informasi ini kepada Anda, Anda dapat mengubah pembaruan untuk memasukkannya dengan hanya mengubah kembali ke .p(s|s′,a) γp(S′|S,A)maxa(Q(S′,a))
sumber
SARSA
atauQ-learning
) yang harus digunakan ketika berhadapan dengan situasi yang berbeda? Terima kasih.Selain hal di atas, Q-Learning adalah algoritma model-gratis , yang berarti bahwa agen kami hanya mengetahui keadaan apa yang diberikan oleh lingkungan. Dengan kata lain, jika agen memilih dan melakukan tindakan, negara berikutnya ditentukan oleh lingkungan saja dan memberikan kepada agen. Untuk alasan itu, agen tidak memikirkan probabilitas transisi negara.
sumber