Baru-baru ini saya belajar tentang Q-learning, sebuah teknik pembelajaran penguatan yang secara langsung memperkirakan nilai yang diharapkan dari mengambil tindakan dalam keadaan.
Saya bertanya-tanya apakah ada teknik untuk melakukan "pembelajaran dinamika", untuk memperkirakan dinamika suatu sistem. Agen "pembelajaran dinamika" dapat memilih tindakan yang membantunya memperkirakan fungsi transisi negara, atau memperkirakan parameter dari beberapa fungsi transisi yang diketahui.
Sebagai contoh, agen "dinamika pembelajaran" dalam sistem kutub-gerobak akan menemukan fungsi yang mendekati persamaan gerak gerobak-gerobak. Atau, agen mungkin mengetahui persamaan ini, tetapi bukan parameter sistem, seperti momen inersia bandul atau massa gerobak.
Teknik apa yang ada untuk melakukan "pembelajaran dinamika"?