Saya telah mempelajari masalah pembelajaran penguatan hirarki, dan sementara banyak makalah mengusulkan algoritma untuk mempelajari suatu kebijakan, mereka semua tampaknya berasumsi mereka tahu sebelumnya struktur grafik yang menggambarkan hierarki tindakan dalam domain. Sebagai contoh, Metode MAXQ untuk Pembelajaran Penguatan Hierarchial oleh Dietterich menjelaskan grafik tindakan dan sub-tugas untuk domain Taksi sederhana, tetapi tidak bagaimana grafik ini ditemukan. Bagaimana Anda mempelajari hierarki grafik ini, dan bukan hanya kebijakannya?
Dengan kata lain, menggunakan contoh koran, jika Taksi berkeliling tanpa tujuan, dengan sedikit pengetahuan dunia sebelumnya, dan hanya tindakan primitif bergerak-kiri / pindah-kanan / dll, bagaimana ia mempelajari tindakan tingkat yang lebih tinggi seperti pergi naik penumpang? Jika saya memahami makalah ini dengan benar (dan mungkin juga tidak), makalah ini mengusulkan cara memperbarui kebijakan untuk tindakan tingkat tinggi ini, tetapi bukan bagaimana mereka dibentuk untuk memulainya.
sumber