Dalam pembelajaran penguatan, apa perbedaan antara iterasi kebijakan dan iterasi nilai ?
Sejauh yang saya pahami, dalam iterasi nilai, Anda menggunakan persamaan Bellman untuk menyelesaikan kebijakan yang optimal, sedangkan, dalam iterasi kebijakan, Anda secara acak memilih kebijakan π, dan menemukan imbalan dari kebijakan itu.
Keraguan saya adalah jika Anda memilih kebijakan acak π di PI, bagaimana kebijakan tersebut dijamin akan menjadi kebijakan yang optimal, bahkan jika kami memilih beberapa kebijakan acak.
Jawaban:
Mari kita lihat mereka berdampingan. Bagian kunci untuk perbandingan disorot. Gambar diambil dari buku Sutton dan Barto: Reinforcement Learning: An Introduction .
Poin utama:
Menurut pengalaman saya, iterasi kebijakan lebih cepat daripada iterasi nilai , karena kebijakan menyatu lebih cepat daripada fungsi nilai. Saya ingat ini juga dijelaskan di buku.
Saya kira kebingungan itu terutama berasal dari semua istilah yang agak mirip ini, yang juga membingungkan saya sebelumnya.
sumber
Dalam algoritme iterasi kebijakan , Anda mulai dengan kebijakan acak, lalu temukan fungsi nilai kebijakan tersebut (langkah evaluasi kebijakan), lalu temukan kebijakan baru (yang ditingkatkan) berdasarkan fungsi nilai sebelumnya, dan seterusnya. Dalam proses ini, setiap kebijakan dijamin akan mengalami perbaikan yang ketat dari sebelumnya (kecuali sudah optimal). Dengan adanya kebijakan, fungsi nilainya dapat diperoleh dengan menggunakan operator Bellman .
Dalam iterasi nilai , Anda mulai dengan fungsi nilai acak dan kemudian menemukan fungsi nilai baru (ditingkatkan) dalam proses berulang, hingga mencapai fungsi nilai optimal. Perhatikan bahwa Anda dapat dengan mudah mendapatkan kebijakan optimal dari fungsi nilai optimal. Proses ini didasarkan pada optimalitas operator Bellman .
Dalam beberapa hal, kedua algoritme memiliki prinsip kerja yang sama, dan mereka dapat dilihat sebagai dua kasus dari iterasi kebijakan umum . Namun, operator Bellman yang optimal memiliki operator max , yang non linier, sehingga memiliki fitur yang berbeda. Selain itu, dimungkinkan untuk menggunakan metode hibrida antara iterasi nilai murni dan iterasi kebijakan murni.
sumber
Perbedaan dasarnya adalah -
Dalam Iterasi Kebijakan - Anda secara acak memilih kebijakan dan menemukan fungsi nilai yang sesuai dengannya, kemudian menemukan kebijakan baru (yang ditingkatkan) berdasarkan fungsi nilai sebelumnya, dan seterusnya ini akan menghasilkan kebijakan yang optimal.
Dalam Iterasi Nilai - Anda memilih fungsi nilai secara acak, kemudian mencari fungsi nilai baru (yang ditingkatkan) dalam proses berulang, hingga mencapai fungsi nilai optimal, kemudian mendapatkan kebijakan optimal dari fungsi nilai optimal tersebut.
Iterasi kebijakan bekerja berdasarkan prinsip “Evaluasi kebijakan —-> Perbaikan kebijakan”.
Iterasi Nilai bekerja berdasarkan prinsip “Fungsi nilai optimal —-> kebijakan optimal”.
sumber
Sejauh yang saya ketahui, bertentangan dengan ide @zyxue, VI secara umum jauh lebih cepat daripada PI.
Alasannya sangat mudah, seperti yang telah Anda ketahui, Persamaan Bellman digunakan untuk menyelesaikan fungsi nilai untuk kebijakan yang diberikan. Karena kita dapat menyelesaikan fungsi nilai untuk kebijakan optimal secara langsung , fungsi nilai penyelesaian untuk kebijakan saat ini jelas membuang-buang waktu.
Adapun pertanyaan Anda tentang konvergensi PI, saya pikir Anda mungkin mengabaikan fakta bahwa jika Anda meningkatkan strategi untuk setiap status informasi, maka Anda meningkatkan strategi untuk keseluruhan permainan. Ini juga mudah untuk dibuktikan, jika Anda terbiasa dengan Counterfactual Regret Minimization - jumlah penyesalan untuk setiap status informasi telah membentuk batas atas dari keseluruhan penyesalan, dan dengan demikian meminimalkan penyesalan untuk setiap status akan meminimalkan penyesalan secara keseluruhan, yang mana mengarah pada kebijakan yang optimal.
sumber