Mempelajari Struktur Tugas Penguatan Hirarkis

Saya telah mempelajari masalah pembelajaran penguatan hirarki, dan sementara banyak makalah mengusulkan algoritma untuk mempelajari suatu kebijakan, mereka semua tampaknya berasumsi mereka tahu sebelumnya struktur grafik yang menggambarkan hierarki tindakan dalam domain. Sebagai contoh, Metode MAXQ untuk Pembelajaran Penguatan Hierarchial oleh Dietterich menjelaskan grafik tindakan dan sub-tugas untuk domain Taksi sederhana, tetapi tidak bagaimana grafik ini ditemukan. Bagaimana Anda mempelajari hierarki grafik ini, dan bukan hanya kebijakannya?

Dengan kata lain, menggunakan contoh koran, jika Taksi berkeliling tanpa tujuan, dengan sedikit pengetahuan dunia sebelumnya, dan hanya tindakan primitif bergerak-kiri / pindah-kanan / dll, bagaimana ia mempelajari tindakan tingkat yang lebih tinggi seperti pergi naik penumpang? Jika saya memahami makalah ini dengan benar (dan mungkin juga tidak), makalah ini mengusulkan cara memperbarui kebijakan untuk tindakan tingkat tinggi ini, tetapi bukan bagaimana mereka dibentuk untuk memulainya.

machine-learning Cerin
sumber

Jawaban:

Menurut ini kertas

Dalam keadaan saat ini, perancang sistem RL biasanya menggunakan pengetahuan sebelumnya tentang tugas untuk menambahkan serangkaian opsi spesifik ke serangkaian tindakan primitif yang tersedia untuk agen.

Juga lihat bagian 6.2 Hierarki Tugas Belajar dalam makalah yang sama.

Gagasan pertama yang muncul di benak saya adalah bahwa jika Anda tidak tahu hierarki tugas, Anda harus mulai dengan pembelajaran penguatan non-hirarki dan mencoba menemukan struktur setelah atau saat belajar, yaitu Anda mencoba untuk menggeneralisasi model Anda. Bagi saya tugas ini terlihat mirip dengan teknik penggabungan model Bayesian untuk HMM (misalnya lihat tesis ini )

Alexey Kalmykov
sumber