bagaimana membuat fungsi hadiah dalam pembelajaran penguatan

Fungsi hadiah menggambarkan bagaimana agen "seharusnya" berperilaku. Dengan kata lain, mereka memiliki konten "normatif", menetapkan apa yang ingin dicapai agen. Sebagai contoh, beberapa penghargaan negara $s$ mungkin mewakili rasa makanan. Atau mungkin, $(s,a)$ mungkin mewakili tindakan mencicipi makanan. Jadi, sejauh fungsi hadiah menentukan apa motivasi agen, ya, Anda harus menebusnya!

Tidak ada batasan absolut, tetapi jika fungsi hadiah Anda "berperilaku lebih baik", agen akan belajar lebih baik. Secara praktis, ini berarti kecepatan konvergensi, dan tidak terjebak dalam minimum lokal. Tetapi spesifikasi lebih lanjut akan sangat bergantung pada spesies pembelajaran penguatan yang Anda gunakan. Misalnya, apakah ruang keadaan / tindakan terus menerus atau terpisah? Apakah dunia atau pemilihan aksi stokastik? Apakah hadiah terus dipanen, atau hanya di akhir?

Salah satu cara untuk melihat masalah adalah bahwa fungsi hadiah menentukan kekerasan masalah. Sebagai contoh, secara tradisional, kita dapat menentukan satu negara yang akan dihargai:

R (s_{1}) = 1

$R(s_1)=1$

R (s_{2.. n}) = 0

$R(s_{2..n})=0$ Dalam kasus ini, masalah yang harus dipecahkan cukup sulit, dibandingkan dengan, katakanlah,

R (s_{i}) = 1 / i^{2}

$R(s_i)=1/i^2$ , di mana ada gradien hadiah di atas status. Untuk masalah yang sulit, tentukan lebih detail, misalnya

R (s, a)

$R(s,a)$ atau

R (s, a, s^{'})

$R(s,a,s^\prime)$ dapat membantu beberapa algoritma dengan memberikan petunjuk tambahan, tetapi berpotensi dengan biaya yang membutuhkan eksplorasi lebih lanjut. Anda mungkin perlu memasukkan biaya sebagai persyaratan negatif dalam

R

$R$ (mis.Biaya energetik), untuk membuat masalah tersebut ditentukan dengan baik.

Untuk kasus ruang keadaan kontinu, jika Anda ingin agen belajar dengan mudah, fungsi hadiah harus kontinu dan dapat dibedakan . Jadi polinomial dapat bekerja dengan baik untuk banyak algoritma. Selanjutnya, cobalah untuk menghapus minimal lokal. Ada sejumlah contoh bagaimana TIDAK membuat fungsi hadiah - seperti fungsi Rastrigin . Karena itu, beberapa algoritma RL (misalnya mesin Boltzmann ) agak kuat untuk ini.

Jika Anda menggunakan RL untuk memecahkan masalah dunia nyata, Anda mungkin akan menemukan bahwa meskipun menemukan fungsi hadiah adalah bagian tersulit dari masalah, itu terkait erat dengan bagaimana Anda menentukan ruang negara . Misalnya, dalam masalah yang tergantung waktu, jarak ke tujuan sering membuat fungsi hadiah yang buruk (misalnya dalam masalah mobil gunung ). Situasi seperti itu dapat diselesaikan dengan menggunakan ruang keadaan dimensional yang lebih tinggi (keadaan tersembunyi atau jejak memori), atau dengan RL hierarkis.

Pada tingkat abstrak, pembelajaran tanpa pengawasan seharusnya meniadakan penetapan kinerja "benar dan salah". Tapi kita bisa melihat sekarang bahwa RL hanya mengalihkan tanggung jawab dari guru / kritikus ke fungsi hadiah. Ada cara yang kurang melingkar untuk memecahkan masalah: yaitu, untuk menyimpulkan fungsi hadiah terbaik . Salah satu metode disebut RL terbalik atau "pembelajaran magang" , yang menghasilkan fungsi hadiah yang akan mereproduksi perilaku yang diamati. Menemukan fungsi hadiah terbaik untuk mereproduksi serangkaian pengamatan juga dapat diimplementasikan oleh MLE, Bayesian, atau metode teori informasi - jika Anda mencari "pembelajaran penguatan inversi".

Sanjay Manohar
sumber

Hai, mengapa masalah mobil gunung masalah tergantung waktu?

GoingMyWay

Saya kira masalah mobil gunung adalah "tergantung waktu" dalam masalah yang membutuhkan jaringan untuk memberikan urutan perintah yang sesuai , atau kebijakan yang menentukan urutan. Idenya adalah bahwa jika Anda hanya memperlakukan "posisi" sebagai keadaan Anda, maka masalahnya sulit untuk dipecahkan - Anda juga perlu mempertimbangkan kecepatan Anda (atau energi kinetik dll). Itu benar-benar yang saya maksudkan, sehubungan dengan memilih ruang negara Anda dengan bijak dalam masalah yang tergantung waktu.

Sanjay Manohar

@ SanjayManohar Saya tidak berpikir masalah mobil gunung adalah "tergantung waktu", kecuali tergantung waktu Anda berbicara tentang memperkenalkan cakrawala waktu yang terbatas. Posisi dan kecepatan sudah cukup.

user76284

Saya pikir jawaban ini menggabungkan fungsi hadiah dan nilai. Misalnya itu berbicara tentang "menemukan" fungsi hadiah, yang mungkin sesuatu yang Anda lakukan dalam pembelajaran penguatan terbalik , tetapi tidak dalam RL yang digunakan untuk kontrol. Juga, itu berbicara tentang perlunya fungsi hadiah untuk terus menerus dan dapat dibedakan, dan itu tidak hanya tidak diperlukan, biasanya tidak demikian halnya. Anda jauh lebih mungkin menemukan +1 sederhana untuk sukses, atau tetap -1 per langkah waktu yang diambil dalam literatur, daripada menemukan beberapa heuristik yang dapat dikonstruksi secara hati-hati.

Neil Slater

Terima kasih @ NeilSlater, Anda benar saya mungkin seharusnya mengatakan "membangun" fungsi hadiah daripada menemukannya. Mengenai "fungsi nilai", saya biasanya memesan istilah ini untuk pemetaan nilai-negara atau nilai tindakan, yaitu fungsi yang digunakan agen untuk memperkirakan taksiran imbalan di masa mendatang. Jadi "nilai" terkait dengan "hadiah", tetapi hadiah adalah bagian dari masalah, bukan algoritma yang memecahkan masalah. Mungkin penekanan pada AI adalah memamerkan algoritma pembelajaran Anda, dengan menetapkan hadiah biner, distal, jarang - tetapi jika Anda memiliki kontrol atas fungsi hadiah, hidup lebih mudah jika itu "bagus".

Sanjay Manohar

bagaimana membuat fungsi hadiah dalam pembelajaran penguatan

Jawaban: