Apa sebenarnya bootstrap dalam pembelajaran penguatan?

Bootstrap di RL dapat dibaca sebagai "menggunakan satu atau lebih nilai estimasi dalam langkah pembaruan untuk jenis nilai estimasi yang sama".

Di sebagian besar aturan pembaruan TD, Anda akan melihat sesuatu seperti pembaruan SARSA (0) ini:

Q (s, a) \leftarrow Q (s, a) + α (R_{t + 1} + γ Q (s^{'}, a^{'}) - Q (s, a))

$Q(s,a) \leftarrow Q(s,a) + \alpha(R_{t+1} + \gamma Q(s',a') - Q(s,a))$

Nilai $R_{t+1} + \gamma Q(s',a')$ adalah perkiraan untuk nilai sebenarnya dari , dan juga disebut target TD. Ini adalah metode bootstrap karena kita sebagian menggunakan nilai Q untuk memperbarui nilai Q lainnya. Ada sejumlah kecil data nyata yang diamati dalam bentuk , hadiah langsung untuk langkah tersebut, dan juga dalam transisi keadaan . $Q(s,a)$ $R_{t+1}$ $s \rightarrow s'$

Kontras dengan Monte Carlo di mana aturan pembaruan yang setara mungkin:

Q (s, a) \leftarrow Q (s, a) + α (G_{t} - Q (s, a))

$Q(s,a) \leftarrow Q(s,a) + \alpha(G_{t} - Q(s,a))$

Di mana adalah total diskon hadiah pada waktu , dengan asumsi dalam pembaruan ini, itu dimulai dalam keadaan , mengambil tindakan $G_{t}$ $t$ $s$ $a$ , kemudian mengikuti kebijakan saat ini hingga akhir episode. Secara teknis, $G_t = \sum_{k=0}^{T-t-1} \gamma^k R_{t+k+1}$ di mana $T$ adalah langkah waktu untuk terminal reward dan status. Khususnya, nilai target ini tidak menggunakan estimasi yang ada (dari nilai Q lainnya) sama sekali, itu hanya menggunakan satu set pengamatan (yaitu, hadiah) dari lingkungan. Dengan demikian, itu dijamin menjadi estimasi yang tidak bias dari nilai sebenarnya dari $Q(s,a)$ , karena secara teknis merupakan sampel dari $Q(s,a)$ .

Kerugian utama dari bootstrap adalah bias terhadap nilai awal $Q(s',a')$ (atau $V(s')$ ) Anda. Mereka kemungkinan besar salah, dan sistem pembaruan dapat menjadi tidak stabil secara keseluruhan karena terlalu banyak referensi-diri dan tidak cukup data nyata - ini adalah masalah dengan pembelajaran di luar kebijakan (mis. Q-learning) menggunakan jaringan saraf.

Tanpa bootstrap, menggunakan lintasan yang lebih panjang, sering ada varians yang tinggi , yang, dalam praktiknya, berarti Anda membutuhkan lebih banyak sampel sebelum perkiraan bertemu. Jadi, terlepas dari masalah dengan bootstrap, jika dapat dibuat bekerja, ia dapat belajar secara signifikan lebih cepat, dan sering lebih disukai daripada pendekatan Monte Carlo.

Anda dapat berkompromi antara metode berbasis sampel Monte Carlo dan metode TD satu langkah yang melakukan bootstrap dengan menggunakan campuran hasil dari lintasan panjang yang berbeda. Ini disebut pembelajaran TD ( $\lambda$ ) , dan ada berbagai metode spesifik seperti SARSA ( $\lambda$ ) atau Q ( $\lambda$ ).

Neil Slater
sumber

Ini mungkin pertanyaan lain. Namun, jika Anda ingin jawaban, mengapa sebenarnya

dan perkiraan

R_{t + 1} + γ Q (s^{'}, a^{'})

$R_{t+1} + \gamma Q(s',a')$

Q (s, a)

$Q(s, a)$

nbro

@nbro: Karena pada konvergensi,

(persamaan ini dan sebagian besar RL didorong oleh persamaan Bellman untuk MDP). Dengan melihat peristiwa aktual yang terjadi dimulai dengan negara

dan tindakan

Q (s, a) = E [R_{t + 1} + γ Q (S_{t + 1}, A_{t + 1}) | S_{t} = s, A_{t} = a]

$Q(s,a) = \mathbb{E}[R_{t+1} + \gamma Q(S_{t+1},A_{t+1}) | S_t = s, A_t =a]$

s

$s$

a

$a$ , maka Anda pada dasarnya mengambil sampel dari harapan itu. Masalahnya adalah bahwa nilai yang Anda miliki untuk

mungkin belum terkonvergensi, sehingga sampel bias.

Q (S_{t + 1}, A_{t + 1})

$Q(S_{t+1},A_{t+1})$

Neil Slater

Apa yang mencegah seseorang menggunakan metode MC sebagai fase pembakaran , sebelum beralih ke bootstrap? Atau mungkinkah ini dianggap sebagai sub-kasus

λ - T D

$\lambda-TD$

n1k31t4

@ n1k31t4: Tidak ada yang mencegah melakukan ini, dan itu harus menjadi pendekatan RL yang valid. Ini akan berbeda dengan TD (

), tetapi dimotivasi oleh ide yang sama untuk mencoba mendapatkan fitur yang baik dari kedua algoritma. Anda perlu mencobanya dan membandingkan efisiensi pembelajaran dengan TD (

) - Anda masih memiliki parameter hiper untuk disetel, yang merupakan jumlah episode untuk menjalankan MC. Versi yang lebih umum adalah membiarkan

berubah - mulai dengan

dan turunkan ke misalnya

atau nilai apa pun yang tampak paling optimal. Namun, itu memiliki 2 parameter hiper, laju peluruhan dan target untuk

λ

$\lambda$

λ

$\lambda$

λ

$\lambda$

λ = 1

$\lambda = 1$

0.4

$0.4$

λ

$\lambda$

Neil Slater

@ NeilSlater, ketika menggunakan bootstrap, dapatkah ia bertemu? Saya tidak bisa mengerti mengapa itu harus dilakukan karena Q (s ', a') hanyalah tebakan sewenang-wenang yang kemudian mendistorsi estimasi untuk Q (s, a). Juga, mengapa MC memiliki varian tinggi dibandingkan dengan TD?

D56

Apa sebenarnya bootstrap dalam pembelajaran penguatan?

Jawaban: