Mengapa baseline bersyarat pada keadaan di beberapa waktu tidak bias?

Dalam robotika, teknik pembelajaran penguatan digunakan untuk menemukan pola kontrol untuk robot. Sayangnya, sebagian besar metode gradien kebijakan secara statistik bias yang dapat membawa robot dalam situasi yang tidak aman, lihat halaman 2 di Jan Peters dan Stefan Schaal: Penguatan pembelajaran keterampilan motorik dengan gradien kebijakan, 2008

Dengan pembelajaran primitif motor, adalah mungkin untuk mengatasi masalah karena optimasi parameter gradien kebijakan mengarahkan langkah-langkah pembelajaran ke dalam tujuan.

kutipan: "Jika estimasi gradien tidak bias dan angka pembelajaran memenuhi jumlah (a) = 0 proses pembelajaran dijamin untuk konvergen ke setidaknya minimum lokal [...] Oleh karena itu, kita perlu memperkirakan gradien kebijakan hanya dari data yang dihasilkan selama pelaksanaan tugas. ”(Halaman 4 dari kertas yang sama)

Dalam pekerjaan rumah untuk kelas Berkeley RL Soal 1, ia meminta Anda untuk menunjukkan bahwa gradien kebijakan masih tidak bias jika garis dasar yang dikurangkan adalah fungsi dari negara di timestep t.

▽_{θ} \sum_{t = 1}^{T} E_{(s_{t}, a_{t}) \sim p (s_{t}, a_{t})} [b (s_{t})] = 0

$\triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = 0$

Saya berjuang melalui apa langkah pertama dari bukti seperti itu. Bisakah seseorang mengarahkan saya ke arah yang benar? Pikiran awal saya adalah entah bagaimana menggunakan hukum ekspektasi total untuk membuat ekspektasi b (st) bersyarat pada T, tapi saya tidak yakin. Terima kasih sebelumnya :)

_{tautan ke png persamaan asli}

reinforcement-learning Laura C
sumber

Selamat datang di SE: AI! (Saya mengambil kebebasan untuk mengubah persamaan ke MathJax. .Png Asli terkait di bagian bawah.)

DukeZhou

Tidak punya banyak waktu untuk menuliskan persamaan yang tepat dan memformatnya (mungkin nanti jika masih belum dijawab) dengan LaTeX tapi di sini ada sebuah petunjuk. Anda ingin memiliki bahwa jumlah tidak tergantung pada kebijakan sehingga turunannya menjadi 0. Jadi, Anda entah bagaimana mencoba mengungkapkan sesuatu menggunakan kebijakan p (s, a). Jawabannya juga dapat ditemukan di buku Intro Sutton RL di bab gradien kebijakan.

Hai Nguyen

Terima kasih banyak! Saya akan menggunakan petunjuk itu untuk memulai, juga terima kasih telah memberi tahu saya tentang hal itu karena berada di Sutton RL. Saya membaca buku itu dan itu sangat bagus!

Laura C

@LauraC jika Anda menemukan jawabannya sebelum orang lain, silakan datang kembali dan memposting sebagai jawaban resmi di sini (orang-orang pasti menyukai pertanyaan ini :)

DukeZhou

Saya telah menambahkan informasi konteks untuk pertanyaan.

Manuel Rodriguez

Jawaban:

Dengan menggunakan hukum ekspektasi berulang, seseorang memiliki:

$\triangledown _\theta \sum_{t=1}^T \mathbb{E}_{(s_t,a_t) \sim p(s_t,a_t)} [b(s_t)] = \nabla_\theta \sum_{t=1}^T \mathbb{E}_{s_t \sim p(s_t)} \left[ \mathbb{E}_{a_t \sim \pi_\theta(a_t | s_t)} \left[ b(s_t) \right]\right] =$

ditulis dengan integral dan memindahkan gradien di dalam (linearitas) yang Anda dapatkan

$= \sum_{t=1}^T \int_{s_t} p(s_t) \left(\int_{a_t} \nabla_\theta b(s_t) \pi_\theta(a_t | s_t) da_t \right)ds_t =$

$\nabla_\theta$ $b(s_t)$ $a_t$

$= \sum_{t=1}^T \int_{s_t} p(s_t) b(s_t) \nabla_\theta \left(\int_{a_t} \pi_\theta(a_t | s_t) da_t \right)ds_t=$

$\pi_\theta(a_t | s_t)$ $a_t$ $s_t$ $1$

$= \sum_{t=1}^T \int_{s_t} p(s_t) b(s_t) \nabla_\theta 1 ds_t =$

$\nabla_\theta1 = 0$

Andrei Poehlmann
sumber

Tampaknya pekerjaan rumah akan jatuh tempo dua hari sebelum penulisan jawaban ini, tetapi jika itu masih relevan dalam beberapa hal, catatan kelas yang relevan (yang akan berguna jika diberikan dalam pertanyaan bersama dengan pekerjaan rumah) ada di sini .

$\mathbb{E}_{\tau \sim p \theta(\tau)}$

$\sum_{t = 1}^{T} E_{\tau \sim p \theta(\tau)} [\nabla_\theta \log \pi_\theta(a_t|s_t)(b(s_t))] = 0$

$\pi_\theta(a_t|s_t)$

Latihan ini merupakan persiapan untuk langkah berikutnya dalam pekerjaan rumah dan hanya mengacu pada ulasan CS189, kursus Pengantar Burkeley untuk Pembelajaran Mesin, yang tidak mengandung Hukum Ekspektasi Total dalam silabus atau catatan kelasnya.

Semua informasi yang relevan ada di tautan di atas untuk catatan kelas dan hanya membutuhkan aljabar menengah.

Douglas Daseeco
sumber