Dalam robotika, teknik pembelajaran penguatan digunakan untuk menemukan pola kontrol untuk robot. Sayangnya, sebagian besar metode gradien kebijakan secara statistik bias yang dapat membawa robot dalam situasi yang tidak aman, lihat halaman 2 di Jan Peters dan Stefan Schaal: Penguatan pembelajaran keterampilan motorik dengan gradien kebijakan, 2008
Dengan pembelajaran primitif motor, adalah mungkin untuk mengatasi masalah karena optimasi parameter gradien kebijakan mengarahkan langkah-langkah pembelajaran ke dalam tujuan.
kutipan: "Jika estimasi gradien tidak bias dan angka pembelajaran memenuhi jumlah (a) = 0 proses pembelajaran dijamin untuk konvergen ke setidaknya minimum lokal [...] Oleh karena itu, kita perlu memperkirakan gradien kebijakan hanya dari data yang dihasilkan selama pelaksanaan tugas. ”(Halaman 4 dari kertas yang sama)
Dalam pekerjaan rumah untuk kelas Berkeley RL Soal 1, ia meminta Anda untuk menunjukkan bahwa gradien kebijakan masih tidak bias jika garis dasar yang dikurangkan adalah fungsi dari negara di timestep t.
Saya berjuang melalui apa langkah pertama dari bukti seperti itu. Bisakah seseorang mengarahkan saya ke arah yang benar? Pikiran awal saya adalah entah bagaimana menggunakan hukum ekspektasi total untuk membuat ekspektasi b (st) bersyarat pada T, tapi saya tidak yakin. Terima kasih sebelumnya :)
sumber
Jawaban:
Dengan menggunakan hukum ekspektasi berulang, seseorang memiliki:
ditulis dengan integral dan memindahkan gradien di dalam (linearitas) yang Anda dapatkan
sumber
Tampaknya pekerjaan rumah akan jatuh tempo dua hari sebelum penulisan jawaban ini, tetapi jika itu masih relevan dalam beberapa hal, catatan kelas yang relevan (yang akan berguna jika diberikan dalam pertanyaan bersama dengan pekerjaan rumah) ada di sini .
Latihan ini merupakan persiapan untuk langkah berikutnya dalam pekerjaan rumah dan hanya mengacu pada ulasan CS189, kursus Pengantar Burkeley untuk Pembelajaran Mesin, yang tidak mengandung Hukum Ekspektasi Total dalam silabus atau catatan kelasnya.
Semua informasi yang relevan ada di tautan di atas untuk catatan kelas dan hanya membutuhkan aljabar menengah.
sumber