bagaimana membuat fungsi hadiah dalam pembelajaran penguatan

18

Saat mempelajari Penguatan Pembelajaran, saya telah menemukan banyak bentuk fungsi hadiah: , R ( s , a , s ) , dan bahkan fungsi hadiah yang hanya bergantung pada keadaan saat ini. Karena itu, saya menyadari itu tidak mudah untuk 'membuat' atau 'mendefinisikan' fungsi hadiah.R(s,a)R(s,a,s)

Ini pertanyaan saya:

  1. Apakah ada aturan tentang cara membuat fungsi hadiah?
  2. Apakah ada bentuk lain dari fungsi hadiah? Misalnya, bentuk polinomial yang mungkin tergantung pada negara?
cgo
sumber

Jawaban:

25

Fungsi hadiah menggambarkan bagaimana agen "seharusnya" berperilaku. Dengan kata lain, mereka memiliki konten "normatif", menetapkan apa yang ingin dicapai agen. Sebagai contoh, beberapa penghargaan negara s mungkin mewakili rasa makanan. Atau mungkin, (s,a) mungkin mewakili tindakan mencicipi makanan. Jadi, sejauh fungsi hadiah menentukan apa motivasi agen, ya, Anda harus menebusnya!

Tidak ada batasan absolut, tetapi jika fungsi hadiah Anda "berperilaku lebih baik", agen akan belajar lebih baik. Secara praktis, ini berarti kecepatan konvergensi, dan tidak terjebak dalam minimum lokal. Tetapi spesifikasi lebih lanjut akan sangat bergantung pada spesies pembelajaran penguatan yang Anda gunakan. Misalnya, apakah ruang keadaan / tindakan terus menerus atau terpisah? Apakah dunia atau pemilihan aksi stokastik? Apakah hadiah terus dipanen, atau hanya di akhir?

Salah satu cara untuk melihat masalah adalah bahwa fungsi hadiah menentukan kekerasan masalah. Sebagai contoh, secara tradisional, kita dapat menentukan satu negara yang akan dihargai:

R(s1)=1
R(s2..n)=0
Dalam kasus ini, masalah yang harus dipecahkan cukup sulit, dibandingkan dengan, katakanlah, R(si)=1/i2 , di mana ada gradien hadiah di atas status. Untuk masalah yang sulit, tentukan lebih detail, misalnya R(s,a) atau R(s,a,s) dapat membantu beberapa algoritma dengan memberikan petunjuk tambahan, tetapi berpotensi dengan biaya yang membutuhkan eksplorasi lebih lanjut. Anda mungkin perlu memasukkan biaya sebagai persyaratan negatif dalamR (mis.Biaya energetik), untuk membuat masalah tersebut ditentukan dengan baik.

Untuk kasus ruang keadaan kontinu, jika Anda ingin agen belajar dengan mudah, fungsi hadiah harus kontinu dan dapat dibedakan . Jadi polinomial dapat bekerja dengan baik untuk banyak algoritma. Selanjutnya, cobalah untuk menghapus minimal lokal. Ada sejumlah contoh bagaimana TIDAK membuat fungsi hadiah - seperti fungsi Rastrigin . Karena itu, beberapa algoritma RL (misalnya mesin Boltzmann ) agak kuat untuk ini.

Jika Anda menggunakan RL untuk memecahkan masalah dunia nyata, Anda mungkin akan menemukan bahwa meskipun menemukan fungsi hadiah adalah bagian tersulit dari masalah, itu terkait erat dengan bagaimana Anda menentukan ruang negara . Misalnya, dalam masalah yang tergantung waktu, jarak ke tujuan sering membuat fungsi hadiah yang buruk (misalnya dalam masalah mobil gunung ). Situasi seperti itu dapat diselesaikan dengan menggunakan ruang keadaan dimensional yang lebih tinggi (keadaan tersembunyi atau jejak memori), atau dengan RL hierarkis.

Pada tingkat abstrak, pembelajaran tanpa pengawasan seharusnya meniadakan penetapan kinerja "benar dan salah". Tapi kita bisa melihat sekarang bahwa RL hanya mengalihkan tanggung jawab dari guru / kritikus ke fungsi hadiah. Ada cara yang kurang melingkar untuk memecahkan masalah: yaitu, untuk menyimpulkan fungsi hadiah terbaik . Salah satu metode disebut RL terbalik atau "pembelajaran magang" , yang menghasilkan fungsi hadiah yang akan mereproduksi perilaku yang diamati. Menemukan fungsi hadiah terbaik untuk mereproduksi serangkaian pengamatan juga dapat diimplementasikan oleh MLE, Bayesian, atau metode teori informasi - jika Anda mencari "pembelajaran penguatan inversi".

Sanjay Manohar
sumber
Hai, mengapa masalah mobil gunung masalah tergantung waktu?
GoingMyWay
Saya kira masalah mobil gunung adalah "tergantung waktu" dalam masalah yang membutuhkan jaringan untuk memberikan urutan perintah yang sesuai , atau kebijakan yang menentukan urutan. Idenya adalah bahwa jika Anda hanya memperlakukan "posisi" sebagai keadaan Anda, maka masalahnya sulit untuk dipecahkan - Anda juga perlu mempertimbangkan kecepatan Anda (atau energi kinetik dll). Itu benar-benar yang saya maksudkan, sehubungan dengan memilih ruang negara Anda dengan bijak dalam masalah yang tergantung waktu.
Sanjay Manohar
@ SanjayManohar Saya tidak berpikir masalah mobil gunung adalah "tergantung waktu", kecuali tergantung waktu Anda berbicara tentang memperkenalkan cakrawala waktu yang terbatas. Posisi dan kecepatan sudah cukup.
user76284
Saya pikir jawaban ini menggabungkan fungsi hadiah dan nilai. Misalnya itu berbicara tentang "menemukan" fungsi hadiah, yang mungkin sesuatu yang Anda lakukan dalam pembelajaran penguatan terbalik , tetapi tidak dalam RL yang digunakan untuk kontrol. Juga, itu berbicara tentang perlunya fungsi hadiah untuk terus menerus dan dapat dibedakan, dan itu tidak hanya tidak diperlukan, biasanya tidak demikian halnya. Anda jauh lebih mungkin menemukan +1 sederhana untuk sukses, atau tetap -1 per langkah waktu yang diambil dalam literatur, daripada menemukan beberapa heuristik yang dapat dikonstruksi secara hati-hati.
Neil Slater
Terima kasih @ NeilSlater, Anda benar saya mungkin seharusnya mengatakan "membangun" fungsi hadiah daripada menemukannya. Mengenai "fungsi nilai", saya biasanya memesan istilah ini untuk pemetaan nilai-negara atau nilai tindakan, yaitu fungsi yang digunakan agen untuk memperkirakan taksiran imbalan di masa mendatang. Jadi "nilai" terkait dengan "hadiah", tetapi hadiah adalah bagian dari masalah, bukan algoritma yang memecahkan masalah. Mungkin penekanan pada AI adalah memamerkan algoritma pembelajaran Anda, dengan menetapkan hadiah biner, distal, jarang - tetapi jika Anda memiliki kontrol atas fungsi hadiah, hidup lebih mudah jika itu "bagus".
Sanjay Manohar
4

Merancang fungsi hadiah memang masalah yang sulit. Secara umum, fungsi hadiah jarang lebih mudah untuk didefinisikan (mis., Dapatkan +1 jika Anda memenangkan permainan, kalau tidak 0). Namun, hadiah yang jarang juga memperlambat pembelajaran karena agen perlu mengambil banyak tindakan sebelum mendapatkan hadiah apa pun. Masalah ini juga dikenal sebagai masalah penugasan kredit .

Alih-alih memiliki representasi tabel untuk hadiah, Anda dapat menggunakan fungsi kontinu juga (seperti polinomial). Ini adalah kasus biasanya ketika ruang keadaan dan ruang tindakan kontinu bukannya terpisah.

erensezener
sumber