Apa perbedaan antara pembelajaran di luar kebijakan dan pembelajaran di luar kebijakan?

79

Situs web kecerdasan buatan mendefinisikan pembelajaran di luar kebijakan dan di-kebijakan sebagai berikut:

"Pelajar di luar kebijakan mempelajari nilai kebijakan optimal secara independen dari tindakan agen. Pembelajaran Q adalah pelajar di luar kebijakan. Pelajar di luar kebijakan mempelajari nilai kebijakan yang dilakukan oleh agen termasuk langkah-langkah eksplorasi . "

Saya ingin meminta klarifikasi Anda mengenai hal ini, karena sepertinya tidak ada bedanya dengan saya. Kedua definisi tersebut sepertinya identik. Apa yang sebenarnya saya pahami adalah pembelajaran yang bebas model dan berbasis model, dan saya tidak tahu apakah ada hubungannya dengan yang dipertanyakan.

Bagaimana mungkin kebijakan optimal dipelajari secara independen dari tindakan agen? Bukankah kebijakan itu dipelajari ketika agen melakukan tindakan?

cgo
sumber
1
Saya menambahkan komentar ke stackoverflow.com/questions/6848828/… , bagian TL; NR mungkin membantu dengan pemahaman juga.
zyxue
berikut adalah penjelasan yang bagus nb4799.neu.edu/wordpress/?p=1850
Ivan Kush
Saya juga ingin menambahkan bahwa ada varian off-kebijakan SARSA. Makalah ini ( cs.ox.ac.uk/people/shimon.whiteson/pubs/vanseijenadprl09.pdf ) akan meninjau dan mematikan kebijakan dalam pengantar, dan kemudian menjelaskan sarsa yang diharapkan. Cari juga gradien kebijakan yang diharapkan (EPG) untuk menemukan teori yang lebih umum yang menyatukan kedua tipe tersebut.
Josh Albert

Jawaban:

95

Pertama-tama, tidak ada alasan bahwa agen harus melakukan tindakan serakah ; Agen dapat menjelajahi atau mereka dapat mengikuti opsi . Ini bukan yang memisahkan antara kebijakan dengan pembelajaran di luar kebijakan.

Alasan mengapa Q-learning tidak sesuai dengan kebijakan adalah karena ia memperbarui nilai-Q-nya menggunakan nilai-Q dari status berikutnya s dan tindakan serakah a . Dengan kata lain, itu memperkirakan pengembalian (total diskon masa depan) untuk pasangan tindakan negara dengan asumsi kebijakan serakah diikuti meskipun fakta bahwa itu tidak mengikuti kebijakan serakah.

sa

Perbedaannya menghilang jika kebijakan saat ini adalah kebijakan serakah. Namun, agen seperti itu tidak akan baik karena tidak pernah mengeksplorasi.

Sudahkah Anda melihat buku yang tersedia secara online gratis? Richard S. Sutton dan Andrew G. Barto. Pembelajaran penguatan: Pengantar. Edisi kedua, MIT Press, Cambridge, MA, 2018.

Neil G
sumber
8
penjelasan yang bagus! Contoh Anda tentang Q-learning lebih baik dirumuskan dalam buku Sutton, yang mengatakan: " fungsi nilai tindakan yang dipelajari, Q, secara langsung mendekati Q *, fungsi nilai tindakan optimal, terlepas dari kebijakan yang diikuti. Ini secara dramatis menyederhanakan analisis algoritma dan mengaktifkan bukti konvergensi awal. Kebijakan ini masih berpengaruh karena menentukan pasangan tindakan negara mana yang dikunjungi dan diperbarui. "
Ciprian Tomoiagă
3
Secara umum, saya tidak menemukan Sutton dan Barto sangat mudah dibaca sama sekali. Saya menemukan penjelasan yang mereka tawarkan tidak terlalu dimengerti. Saya tidak yakin mengapa buku mereka direkomendasikan di semua tempat
SN
@SN Bagi banyak siswa pembelajaran penguatan, Sutton dan Barto adalah buku pertama yang mereka baca.
Neil G
3
@JakubArnold buku asli Sutton & Barto berasal dari tahun 1998 dan tidak mencakup pembelajaran penguatan yang mendalam. Edisi ke-2 hanya menyebutkan hal-hal seperti AlphaGo, tetapi fokus buku ini adalah pendekatan yang lebih klasik. Jika Anda ingin lebih banyak sumber daya RL, lihat daftar ini . Saya menyarankan video-video David Silver dan buku Puterman karena lebih mudah didekati. Untuk materi yang lebih teoretis, saya merekomendasikan buku Bertsekas. Lihatlah situs web Spinning Up untuk algoritme DRL dan tautan ke makalah asli.
Douglas De Rizzo Meneghetti
1
@AlbertChen "Jadi dalam hal ini, itu tergantung pada eksplorasi atau tidak": Tidak, karena kedua algoritma mengeksplorasi. Perbedaannya adalah bagaimana Q diperbarui.
Neil G
13

Metode on-policy memperkirakan nilai kebijakan saat menggunakannya untuk kontrol.

Dalam metode di luar kebijakan , kebijakan yang digunakan untuk menghasilkan perilaku, yang disebut kebijakan perilaku , mungkin tidak terkait dengan kebijakan yang dievaluasi dan ditingkatkan, yang disebut kebijakan estimasi .

Keuntungan dari pemisahan ini adalah bahwa kebijakan estimasi dapat bersifat deterministik (misalnya serakah), sementara kebijakan perilaku dapat terus mengambil sampel semua tindakan yang mungkin.

Untuk perincian lebih lanjut, lihat bagian 5.4 dan 5.6 dari buku Reinforcement Learning: An Introduction oleh Barto dan Sutton, edisi pertama.

nbro
sumber
7

Perbedaan antara metode Off-kebijakan dan On-kebijakan adalah bahwa dengan yang pertama Anda tidak perlu mengikuti kebijakan tertentu, agen Anda bahkan dapat berperilaku secara acak dan meskipun demikian, metode di luar kebijakan masih dapat menemukan kebijakan yang optimal. Di sisi lain metode on-policy tergantung pada kebijakan yang digunakan. Dalam kasus Q-Learning, yang merupakan kebijakan di luar, itu akan menemukan kebijakan optimal independen dari kebijakan yang digunakan selama eksplorasi, namun ini hanya berlaku ketika Anda mengunjungi negara yang berbeda kali. Anda dapat menemukan di koran asli oleh Watkins bukti aktual yang menunjukkan properti Q-Learning yang sangat bagus ini. Namun ada trade-off dan itu adalah metode off-kebijakan cenderung lebih lambat daripada metode on-kebijakan. Berikut tautan dengan ringkasan menarik lainnya dari sifat-sifat kedua jenis metode

Juli
sumber
1
Metode off-kebijakan tidak hanya lebih lambat, tetapi dapat menjadi tidak stabil ketika dikombinasikan dengan bootstrap (yaitu bagaimana Q-learning membangun estimasi dari satu sama lain) dan penaksir fungsi (misalnya jaringan saraf).
Neil Slater
7

π
asπas


Q(s,a)as
ππ(a|s)

Q(s,a)


Q(s,a)π
Q(s,a)

Q(s,a)Q(s,a)+α(r+γQ(s,a)Q(s,a))aπ

Q(s,a)Q(s,a)+α(r+γmaxaQ(s,a)Q(s,a))as

Dmitry Mottl
sumber
1

Dari buku Sutton: "Pendekatan on-kebijakan di bagian sebelumnya sebenarnya adalah kompromi — ia mempelajari nilai-nilai tindakan bukan untuk kebijakan optimal, tetapi untuk kebijakan hampir-optimal yang masih mengeksplorasi. Pendekatan yang lebih langsung adalah menggunakan dua kebijakan , kebijakan yang dipelajari dan menjadi kebijakan optimal, dan kebijakan yang lebih eksploratif dan digunakan untuk menghasilkan perilaku.Kebijakan yang dipelajari adalah kebijakan sasaran, dan kebijakan yang digunakan untuk membangkitkan perilaku disebut kebijakan perilaku. Dalam hal ini kami mengatakan bahwa belajar adalah dari data "o" kebijakan target, dan keseluruhan proses disebut pembelajaran o-kebijakan. "

Oliver Goldstein
sumber
jika Anda mengikuti uraian ini, tidak mudah untuk mengatakan mengapa Q-learning di luar kebijakan
Albert Chen