Situs web kecerdasan buatan mendefinisikan pembelajaran di luar kebijakan dan di-kebijakan sebagai berikut:
"Pelajar di luar kebijakan mempelajari nilai kebijakan optimal secara independen dari tindakan agen. Pembelajaran Q adalah pelajar di luar kebijakan. Pelajar di luar kebijakan mempelajari nilai kebijakan yang dilakukan oleh agen termasuk langkah-langkah eksplorasi . "
Saya ingin meminta klarifikasi Anda mengenai hal ini, karena sepertinya tidak ada bedanya dengan saya. Kedua definisi tersebut sepertinya identik. Apa yang sebenarnya saya pahami adalah pembelajaran yang bebas model dan berbasis model, dan saya tidak tahu apakah ada hubungannya dengan yang dipertanyakan.
Bagaimana mungkin kebijakan optimal dipelajari secara independen dari tindakan agen? Bukankah kebijakan itu dipelajari ketika agen melakukan tindakan?
Jawaban:
Pertama-tama, tidak ada alasan bahwa agen harus melakukan tindakan serakah ; Agen dapat menjelajahi atau mereka dapat mengikuti opsi . Ini bukan yang memisahkan antara kebijakan dengan pembelajaran di luar kebijakan.
Alasan mengapa Q-learning tidak sesuai dengan kebijakan adalah karena ia memperbarui nilai-Q-nya menggunakan nilai-Q dari status berikutnyas′ dan tindakan serakah a′ . Dengan kata lain, itu memperkirakan pengembalian (total diskon masa depan) untuk pasangan tindakan negara dengan asumsi kebijakan serakah diikuti meskipun fakta bahwa itu tidak mengikuti kebijakan serakah.
Perbedaannya menghilang jika kebijakan saat ini adalah kebijakan serakah. Namun, agen seperti itu tidak akan baik karena tidak pernah mengeksplorasi.
Sudahkah Anda melihat buku yang tersedia secara online gratis? Richard S. Sutton dan Andrew G. Barto. Pembelajaran penguatan: Pengantar. Edisi kedua, MIT Press, Cambridge, MA, 2018.
sumber
Metode on-policy memperkirakan nilai kebijakan saat menggunakannya untuk kontrol.
Dalam metode di luar kebijakan , kebijakan yang digunakan untuk menghasilkan perilaku, yang disebut kebijakan perilaku , mungkin tidak terkait dengan kebijakan yang dievaluasi dan ditingkatkan, yang disebut kebijakan estimasi .
Keuntungan dari pemisahan ini adalah bahwa kebijakan estimasi dapat bersifat deterministik (misalnya serakah), sementara kebijakan perilaku dapat terus mengambil sampel semua tindakan yang mungkin.
Untuk perincian lebih lanjut, lihat bagian 5.4 dan 5.6 dari buku Reinforcement Learning: An Introduction oleh Barto dan Sutton, edisi pertama.
sumber
Perbedaan antara metode Off-kebijakan dan On-kebijakan adalah bahwa dengan yang pertama Anda tidak perlu mengikuti kebijakan tertentu, agen Anda bahkan dapat berperilaku secara acak dan meskipun demikian, metode di luar kebijakan masih dapat menemukan kebijakan yang optimal. Di sisi lain metode on-policy tergantung pada kebijakan yang digunakan. Dalam kasus Q-Learning, yang merupakan kebijakan di luar, itu akan menemukan kebijakan optimal independen dari kebijakan yang digunakan selama eksplorasi, namun ini hanya berlaku ketika Anda mengunjungi negara yang berbeda kali. Anda dapat menemukan di koran asli oleh Watkins bukti aktual yang menunjukkan properti Q-Learning yang sangat bagus ini. Namun ada trade-off dan itu adalah metode off-kebijakan cenderung lebih lambat daripada metode on-kebijakan. Berikut tautan dengan ringkasan menarik lainnya dari sifat-sifat kedua jenis metode
sumber
sumber
Dari buku Sutton: "Pendekatan on-kebijakan di bagian sebelumnya sebenarnya adalah kompromi — ia mempelajari nilai-nilai tindakan bukan untuk kebijakan optimal, tetapi untuk kebijakan hampir-optimal yang masih mengeksplorasi. Pendekatan yang lebih langsung adalah menggunakan dua kebijakan , kebijakan yang dipelajari dan menjadi kebijakan optimal, dan kebijakan yang lebih eksploratif dan digunakan untuk menghasilkan perilaku.Kebijakan yang dipelajari adalah kebijakan sasaran, dan kebijakan yang digunakan untuk membangkitkan perilaku disebut kebijakan perilaku. Dalam hal ini kami mengatakan bahwa belajar adalah dari data "o" kebijakan target, dan keseluruhan proses disebut pembelajaran o-kebijakan. "
sumber