Dinamika pembelajaran

Baru-baru ini saya belajar tentang Q-learning, sebuah teknik pembelajaran penguatan yang secara langsung memperkirakan nilai yang diharapkan dari mengambil tindakan dalam keadaan.

Saya bertanya-tanya apakah ada teknik untuk melakukan "pembelajaran dinamika", untuk memperkirakan dinamika suatu sistem. Agen "pembelajaran dinamika" dapat memilih tindakan yang membantunya memperkirakan fungsi transisi negara, atau memperkirakan parameter dari beberapa fungsi transisi yang diketahui.

Sebagai contoh, agen "dinamika pembelajaran" dalam sistem kutub-gerobak akan menemukan fungsi yang mendekati persamaan gerak gerobak-gerobak. Atau, agen mungkin mengetahui persamaan ini, tetapi bukan parameter sistem, seperti momen inersia bandul atau massa gerobak.

Teknik apa yang ada untuk melakukan "pembelajaran dinamika"?

machine-learning physics Robz
sumber

Jawaban:

Ada tiga masalah. Pertama, Anda harus memilih kelas model untuk dinamika. Kedua, Anda harus membangun satu set pelatihan, dengan membawa agen turun lintasan yang berbeda untuk menjelajahi ruang negara. Ketiga, Anda membutuhkan cara untuk mempelajari / menyimpulkan model dinamika tertentu dari set pelatihan ini. Ada berbagai cara untuk membuat instance dari masing-masing tugas ini.

Dalam robotika, satu pilihan umum adalah menggunakan proses keputusan Markov (MDP) untuk model dinamika. Ini adalah pilihan yang mudah, karena ada cara yang relatif standar untuk mempelajari MDP dari set pelatihan, dan karena diberikan model dinamika MDP, dipelajari dengan baik cara membuat controller untuk sistem yang memperhitungkan dinamika tersebut. Pilihan lain adalah menggunakan proses keputusan Markov tingkat tinggi atau proses keputusan Markov yang dapat diamati sebagian, tetapi hal itu bisa jauh lebih sulit untuk dikerjakan.

Ada banyak cara untuk menjelajahi ruang negara. Bab 3.1 dari tesis PhD Pieter Abbeel memiliki tinjauan bagus pada 2008.

Untuk menyimpulkan / mempelajari MDP yang diberikan satu set pelatihan, Anda dapat menggunakan estimasi kemungkinan maksimum. Teknik yang lebih canggih juga dimungkinkan; lihat tesis PhD Abbeel untuk tinjauan umum ini juga (Bab 3 dan 4).

Lebih umum, lihat literatur tentang identifikasi sistem dari bidang teori kontrol.

DW
sumber