Saya membaca catatan kuliah Andrew Ng tentang pembelajaran penguatan, dan saya mencoba memahami mengapa iterasi kebijakan digabungkan ke fungsi nilai optimal dan kebijakan optimal .
Ingat iterasi kebijakan adalah:
Mengapa algoritma serakah mengarah pada kebijakan optimal dan fungsi nilai optimal? (Saya tahu algoritma serakah tidak selalu menjamin hal itu, atau mungkin terjebak dalam optima lokal, jadi saya hanya ingin melihat bukti untuk optimalitas algoritma).
Juga, bagi saya tampaknya iterasi kebijakan adalah sesuatu yang analog dengan pengelompokan atau penurunan gradien. Untuk pengelompokan, karena dengan pengaturan parameter saat ini, kami mengoptimalkan. Mirip dengan gradient descent karena hanya memilih beberapa nilai yang tampaknya meningkatkan beberapa fungsi. Dua metode ini tidak selalu menyatu ke maxima optimal, dan saya mencoba memahami bagaimana algoritma ini berbeda dari yang sebelumnya saya sebutkan.
Ini adalah pemikiran saya sejauh ini:
Katakanlah bahwa kita mulai dengan beberapa kebijakan , kemudian setelah langkah pertama, untuk kebijakan tetap itu kita memilikinya:
Di mana V ^ {(1)} adalah fungsi nilai untuk iterasi pertama. Kemudian setelah langkah kedua kami memilih beberapa kebijakan baru untuk meningkatkan nilai . Sekarang, dengan kebijakan baru , jika kita melakukan langkah kedua algoritma, ketidaksetaraan berikut ini berlaku:
Karena kita memilih pada langkah kedua untuk meningkatkan fungsi nilai pada langkah sebelumnya (yaitu untuk meningkatkan . Sejauh ini, jelas bahwa memilih hanya dapat meningkatkan V ^ {(1)}, karena itulah cara kami memilih . Namun, kebingungan saya muncul pada langkah pengulangan karena setelah kami mengulangi dan kembali ke langkah 1, kami benar-benar mengubah banyak hal karena kami menghitung ulang untuk kebijakan baru . Pemberian yang mana:
tapi ini BUKAN:
Yang tampaknya menjadi masalah karena dipilih untuk meningkatkan , dan bukan . Pada dasarnya masalahnya adalah bahwa menjamin untuk meningkatkan dengan melakukan sebagai gantinya dari ketika fungsi nilai adalah . Tetapi pada langkah berulang kami mengubah menjadi , tetapi saya tidak melihat bagaimana hal itu menjamin bahwa fungsi nilai meningkat secara monoton pada setiap pengulangan karena dihitung untuk meningkatkan fungsi nilai saat fungsi nilai tetap diπ 2 p i 1 V π 1 V π 1 V π 2 π 2 V π 1 V π 1V π 2 π 2, tetapi langkah 1 mengubah menjadi (yang buruk karena I hanya meningkatkan fungsi nilai sebelumnya yang kami miliki).
Jawaban:
Saya pikir bagian yang Anda lewatkan adalah bahwa dijamin untuk alasan yang sama kita dapat memesan . Itulah dasarnya definisi dari satu kebijakan menjadi lebih baik dari yang lain - bahwa fungsi nilainya lebih besar atau sama di semua negara. Anda telah menjamin ini dengan memilih tindakan pemaksimalan - tidak ada nilai keadaan yang mungkin lebih buruk daripada sebelumnya, dan jika hanya satu pilihan tindakan telah berubah untuk memilih tindakan pemaksimalan yang lebih baik, maka Anda sudah tahu (tetapi mungkin belum menghitung) bahwa untuk keadaan itu akan lebih tinggi daripada . π 2 ≥ π 1 V π 2 ( s ) V π 1 ( s )Vπ2≥ Vπ1 π2≥ π1 Vπ2( s ) Vπ1(s)
Ketika kami memilih untuk memaksimalkan hasil untuk menghasilkan , kami tidak tahu apa yang akan menjadi untuk keadaan apa pun, tetapi kami tahu bahwa .V π 2 ( s ) ∀ s : V π 2 ( s ) ≥ V π 1 ( s )π2 Vπ2(s) ∀s:Vπ2(s)≥Vπ1(s)
Karena itu, kembali melalui loop dan menghitung untuk kebijakan baru dijamin memiliki nilai yang sama atau lebih tinggi dari sebelumnya, dan ketika datang untuk memperbarui kebijakan lagi, . π 3 ≥ π 2 ≥ π 1Vπ2 π3≥π2≥π1
sumber
Pertama mari kita lihat mengapa Algoritma Iterasi Kebijakan berfungsi. Ini memiliki dua langkah.
Langkah Evaluasi Kebijakan:
Di sini, istilah adalah hadiah langsung dan baris yang sesuai dari matriks transisi.rdn,Pdn
Istilah-istilah ini tergantung pada kebijakanΠn
Memecahkan sistem persamaan di atas kita dapat menemukan nilai-nilaivn
Langkah Perbaikan Kebijakan:
Asumsikan bahwa kami dapat menemukan kebijakan baru sedemikian rupaΠn+1
Sekarang, berdasarkan pada kebijakan baru , kita dapat menemukan , katakan ini adalah persamaan 2. v n + 1 = r d n + 1 + γ P d n + 1 v n + 1Πn+1 vn+1=rdn+1+γPdn+1vn+1
Kami akan menunjukkan bahwa ;vn+1≥vn
yaitu dasarnya untuk semua negara, kebijakan yang baru dipilih memberikan nilai yang lebih baik dibandingkan dengan kebijakan sebelumnya Π nΠn+1 Πn
Bukti:
Dari, persamaan 2, kita memiliki,
Dari, , kami punya1&2
Pada dasarnya, nilai-nilai meningkat secara monoton dengan setiap iterasi.
Ini penting untuk memahami mengapa Interasi Kebijakan tidak akan macet secara maksimal.
Kebijakan tidak lain adalah ruang tindakan negara.
Pada setiap langkah iterasi kebijakan, kami mencoba menemukan setidaknya satu tindakan-negara yang berbeda antara dan dan melihat apakah . Hanya jika kondisi terpenuhi kami akan menghitung solusi untuk sistem persamaan linear baru.Πn+1 Πn rdn+1+γPdn+1vn≥rdn+γPdnvn
Asumsikan dan adalah optimum global dan lokal masing-masing.Π∗ Π#
Tersirat,v∗≥v#
Asumsikan algoritma macet pada optimal lokal.
Jika ini masalahnya, maka langkah peningkatan kebijakan tidak akan berhenti di ruang tindakan-tindakan lokal optimal , karena terdapat setidaknya satu tindakan negara di yang berbeda dari dan menghasilkan nilai dibandingkan denganΠ# Π∗ Π# v∗ v#
atau, dengan kata lain,
Oleh karena itu, iterasi Kebijakan tidak berhenti pada optimal lokal
sumber