Sepertinya saya bahwa fungsi dapat dengan mudah diekspresikan oleh fungsi dan dengan demikian fungsi tampaknya berlebihan bagi saya. Namun, saya baru belajar penguatan, jadi saya kira ada yang salah.
Definisi
Pembelajaran Q dan V berada dalam konteks Proses Keputusan Markov . Sebuah MDP adalah 5-tuple dengan
- adalah seperangkat status (biasanya terbatas)
- adalah serangkaian tindakan (biasanya terbatas)
- s s ′ a adalah probabilitas untuk dari keadaan ke keadaan dengan tindakan .
- s s ′ a s ′ adalah hadiah langsung setelah beralih dari keadaan ke keadaan dengan tindakan . (Sepertinya saya yang biasanya hanya hal-hal).
- disebut faktor diskon dan menentukan apakah seseorang berfokus pada hadiah langsung ( ), total hadiah ( ) atau trade-off.
Sebuah kebijakan , menurut Penguatan Belajar: Sebuah Pengantar oleh Sutton dan Barto adalah fungsi (ini bisa menjadi probabilistik).
Menurut slide Mario Martins , fungsi adalah dan fungsi Q adalah
Pikiran saya
Fungsi menyatakan apa nilai keseluruhan yang diharapkan (bukan imbalan!) Dari negara bagian bawah kebijakan .
The -negara fungsi apa nilai dari negara dan tindakan di bawah kebijakan adalah.
Ini berarti,
Kanan? Jadi mengapa kita memiliki fungsi nilai sama sekali? (Saya kira saya mencampur sesuatu)
sumber
Anda benar, fungsi memberi Anda nilai kondisi, dan memberi Anda nilai tindakan dalam kondisi (mengikuti kebijakan ). Saya menemukan penjelasan paling jelas tentang Q-learning dan cara kerjanya dalam buku Tom Mitchell "Machine Learning" (1997), ch. 13, yang dapat diunduh. didefinisikan sebagai jumlah dari deret tak hingga tetapi tidak penting di sini. Yang penting adalah fungsi didefinisikan sebagaiV Q π V Q
Ini mungkin tampak rekursi aneh pada awalnya karena ini menyatakan nilai Q suatu tindakan dalam kondisi saat ini dalam hal nilai Q terbaik dari negara penerus , tetapi masuk akal ketika Anda melihat bagaimana proses pencadangan menggunakannya: Eksplorasi proses berhenti ketika mencapai keadaan tujuan dan mengumpulkan hadiah, yang menjadi nilai Q transisi akhir itu. Sekarang dalam episode pelatihan berikutnya, ketika proses eksplorasi mencapai keadaan pendahulunya, proses pencadangan menggunakan persamaan di atas untuk memperbarui nilai Q saat ini dari kondisi pendahulunya. Berikutnya waktu yangpendahulunya dikunjungi bahwa nilai Q negara diperbarui, dan seterusnya kembali ke jalur (buku Mitchell menjelaskan cara yang lebih efisien untuk melakukan ini dengan menyimpan semua perhitungan dan mengulanginya nanti). Asalkan setiap negara dikunjungi tanpa batas sering proses ini pada akhirnya menghitung Q optimal
Kadang-kadang Anda akan melihat laju pembelajaran diterapkan untuk mengontrol seberapa banyak Q sebenarnya diperbarui: Perhatikan sekarang bahwa update ke nilai Q tidak tergantung pada nilai Q saat ini. Buku Mitchell juga menjelaskan mengapa itu dan mengapa Anda perlu : ini untuk stokastik stokastik. Tanpa , setiap kali keadaan, pasangan tindakan dicoba akan ada hadiah yang berbeda sehingga fungsi Q ^ akan terpental di semua tempat dan tidak bertemu. ada sehingga sebagai pengetahuan baru hanya diterima sebagian.α Q(s,a)=(1−α)Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′))
=Q(s,a)+α(r(s,a)+γmaxa′Q(s′,a′)−Q(s,a)) α α α α diatur tinggi sehingga arus (kebanyakan nilai acak) dari Q kurang berpengaruh. berkurang saat pelatihan berlangsung, sehingga pembaruan baru memiliki pengaruh yang semakin sedikit, dan sekarang pembelajaran Q menyatuα
sumber
Berikut adalah penjelasan yang lebih rinci tentang hubungan antara nilai keadaan dan nilai tindakan dalam jawaban Harun. Pertama mari kita lihat definisi fungsi nilai dan fungsi nilai tindakan di bawah kebijakan : mana adalah return at time . Hubungan antara kedua fungsi nilai ini dapat diturunkan sebagaiπ vπ(s)=E[Gt|St=s]qπ(s,a)=E[Gt|St=s,At=a] Gt=∑∞k=0γkRt+k+1 t vπ(s)=E[Gt|St=s]=∑gtp(gt|St=s)gt=∑gt∑ap(gt,a|St=s)gt=∑ap(a|St=s)∑gtp(gt|St=s,At=a)gt=∑ap(a|St=s)E[Gt|St=s,At=a]=∑ap(a|St=s)qπ(s,a)
Persamaan di atas adalah penting. Ini menggambarkan hubungan antara dua fungsi nilai mendasar dalam pembelajaran penguatan. Ini berlaku untuk semua kebijakan. Selain itu, jika kita memiliki kebijakan deterministik , maka . Semoga ini bermanfaat bagi Anda. (untuk melihat lebih lanjut tentang persamaan optimalitas Bellman https: //stats.stackexchange.vπ(s)=qπ(s,π(s)) )
sumber
Fungsi nilai adalah formulasi utilitas abstrak. Dan fungsi-Q digunakan untuk algoritma pembelajaran-Q.
sumber