Bagaimana menyesuaikan bobot ke dalam nilai-Q dengan pendekatan fungsi linear

Dalam pembelajaran penguatan, pendekatan fungsi linear sering digunakan ketika ruang keadaan besar hadir. (Ketika mencari tabel menjadi tidak layak.)

Bentuk nilai dengan pendekatan fungsi linear diberikan oleh $Q-$

Q (s, Sebuah) = w_{1} f_{1} (s, Sebuah) + w_{2} f_{2} (s, Sebuah) + \dots,

$Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots,$

di mana adalah bobot, dan adalah fitur. $w_i$ $f_i$

Fitur-fiturnya sudah ditentukan oleh pengguna. Pertanyaan saya adalah, bagaimana bobot diberikan?

Saya telah membaca / mengunduh beberapa slide kuliah tentang learning dengan perkiraan fungsi. Sebagian besar dari mereka memiliki slide tentang regresi linier yang mengikutinya. Karena mereka hanya slide, mereka cenderung tidak lengkap. Saya bertanya-tanya apa hubungan / hubungan antara kedua topik tersebut. $Q-$

machine-learning feature-selection reinforcement-learning cgo
sumber

Perkiraan fungsi pada dasarnya adalah masalah regresi (dalam arti umum, yaitu menentang klasifikasi di mana kelas diskrit), yaitu seseorang mencoba mempelajari pemetaan fungsi dari input (dalam kasus Anda $f(s,a)$ ) ke nilai sebenarnya output $Q(s,a)$ . Karena kita tidak memiliki tabel lengkap dari semua nilai input / output, tetapi sebaliknya belajar dan memperkirakan $Q(s,a)$ pada saat yang sama, parameter (di sini: bobot $w$ ) tidak dapat dihitung secara langsung dari data. Pendekatan umum di sini adalah menggunakan gradient descent .

Berikut ini adalah algoritma umum untuk mempelajari $Q(s,a)$ dengan Value Function Approximation

Init parameter-vector secara acak (misalnya dalam [0,1]) $w=(w_1,w_2,....,w_n)$
Untuk setiap episode:
1. $s\leftarrow$ keadaan awal episode
2. $a\leftarrow$ tindakan yang diberikan oleh kebijakan $\pi$ (merekomendasikan: $\epsilon$ -senang)
3. Mengambil tindakan $a$ , mengamati reward $r$ dan negara berikutnya $s'$
4. $w\leftarrow w+ \alpha(r+\gamma * max_{a'}Q(s',a') - Q(s,a)) \vec\nabla_wQ(s,a)$
5. $s\leftarrow s'$
Ulangi 2-5 hingga $s$ adalah terminal

dimana ...

$\alpha\in[0,1]$ adalah tingkat belajar
$\gamma\in[0,1]$ adalah tingkat diskonto
$max_{a'}Q(s',a')$ adalah aksi $a'$ dalam keadaan $s'$ memaksimalkan $Q(s',a)$
$\vec\nabla_wQ(s,a)$ adalah gradien $Q(s,a)$ dalam $w$ . Dalam kasus linear Anda, gradien hanyalah sebuah vektor $(f_1(s,a),...,f_n(s,a))$

Pembaruan parameter / bobot (langkah 4) dapat dibaca sedemikian rupa:

$(r+\gamma * max_a'Q(s',a')) - (Q(s,a))$ adalah kesalahan antara prediksi $Q(s,a)$ dan nilai "aktual" untuk $Q(s,a)$ , yang merupakan hadiah $r$ diperolehsekarang PLUShadiah yang diharapkan, diskon setelah kebijakan serakahsesudahnya $\gamma * max_a'Q(s',a')$
Jadi parameter / vektor-bobot digeser ke arah paling curam (diberikan oleh gradien $\vec\nabla_wQ(s,a)$ ) dengan jumlah kesalahan yang diukur, disesuaikan dengan $\alpha$ .

Sumber utama:

Bab 8 Perkiraan Nilai dari buku Reinforcement Learning (disarankan secara keseluruhan) : Pengantar oleh Sutton dan Barto (Edisi Pertama). Algoritma umum telah dimodifikasi seperti yang biasa dilakukan untuk menghitung $Q(s,a)$ bukan $V(s)$ . Saya juga telah menghapus jejak kelayakan $e$ untuk fokus pada gradient descent, karenanya hanya menggunakan satu langkah cadangan

Lebih banyak referensi

$Q(s,a)$
Sebuah Survei Singkat tentang Pendekatan Fungsi Nilai Parametrik oleh Geist dan Pietquin. Terlihat menjanjikan, tapi saya belum membacanya.

steffen
sumber

Tautan rusak untuk Barto & Sutton! Sekarang di sini -> incompleteideas.net/book/the-book.html :) dan sebagai ebook incompleteideas.net/book/ebook tetapi saya tidak tahu di mana untuk menemukan file mobi

grisaitis

Bukankah gradien Q (s, a) dalam kaitannya dengan vektor kolom wa di mana setiap elemen adalah fi (s, a), alih-alih menjadi penjumlahan dari semua fi seperti yang Anda katakan? Tujuannya adalah bahwa setiap bobot diubah sesuai dengan nilai fitur yang digandakan.

Miguel Saraiva

@MiguelSaraiva Ya, perbaiki. Terima kasih banyak.

steffen

Bagaimana menyesuaikan bobot ke dalam nilai-Q dengan pendekatan fungsi linear

Jawaban: