Arti faktor diskon pada pembelajaran penguatan

10

Setelah membaca pencapaian google deepmind di game Atari , saya mencoba memahami q-learning dan q-networks, tapi saya agak bingung. Kebingungan muncul dalam konsep faktor diskon. Ringkasan singkat tentang apa yang saya mengerti. Jaringan saraf convolutional yang mendalam digunakan untuk memperkirakan nilai dari nilai yang diharapkan optimal dari suatu tindakan. Jaringan harus meminimalkan fungsi kerugian mana E s [ y | s , a ] adalah E [ r + γ m a x a Q ( s , a ; θ - i ) | s,a] DimanaQadalah nilai skor kumulatif danradalah nilai skor untuk tindakan yang dipilih. s,adan s

Li=Es,a,r[(Es[y|s,a]Q(s,a;θi))2]
Es[y|s,a]
E[r+γmaxaQ(s,a;θi)|s,a]
Qrs,a adalah masing-masing negara dan tindakan memilih pada saat t dan negara dan tindakan pada saat t ' . The θ - i adalah bobot dari jaringan pada iterasi sebelumnya. The γ adalah faktor diskon yang memperhitungkan perbedaan temporal nilai skor. The i subscript adalah langkah temporal. Masalahnya di sini adalah untuk memahami mengapa γ tidak tergantung pada θ .s,attθiγiγθ

Dari sudut pandang matematika adalah faktor diskon dan mewakili kemungkinan untuk mencapai keadaan s ' dari negara s .γss

Qγγ=1

emanuele
sumber

Jawaban:

6

ssp(s|s,a)γysadalah hadiah instan untuk keadaan ini ditambah apa yang Anda harapkan diterima di masa depan mulai dari . Tetapi istilah masa depan itu harus didiskon, karena hadiah di masa depan mungkin tidak (jika ) memiliki nilai yang sama dengan menerima hadiah sekarang (seperti kita lebih suka menerima $ 100 sekarang daripada besok $ 100). Terserah Anda untuk memilih seberapa besar Anda ingin mendepresiasi hadiah masa depan Anda (itu tergantung masalah). Faktor diskon 0 berarti Anda hanya peduli pada hadiah langsung. Semakin tinggi faktor diskon Anda, semakin jauh ganjaran Anda akan bertambah seiring waktu.sγ<1

Saya sarankan Anda membaca buku Sutton & Barto sebelum mencoba Deep-Q untuk mempelajari Penguatan Pembelajaran murni di luar konteks jaringan saraf, yang mungkin membingungkan Anda.

rcpinto
sumber
Terima kasih atas jawaban Anda, tapi saya masih ragu. Saya berpikir keras. Bayangkan pada setiap langkah Anda menerima skor dan Anda harus membayar untuk mulai bermain. Bagaimana cara menghitung nilai yang diharapkan? Baiklah karena Anda menambahkan nilai pada momen yang berbeda di masa mendatang, bukan? c E v = + i = 1 γ i d - c ddc
Ev=i=1+γidc
d
emanuele
Baiklah, saya akan mencapai titik impas jika berapa nilai yang benar untuk ? Nilai yang benar untuk adalah nilai yang memungkinkan saya trade-off antara hadiah saat ini dan masa depan dan . adalah probabilitas untuk bertahan pada langkah dan itulah mengapa . Ceknya adalah mana peluang untuk bertahan di setiap langkah dan merupakan rentang hidup yang diharapkan. γgammaγ=ppt0γ1p
dγ1γ=c
γgammaγ=ppt0γ1τp1p=ττ
emanuele