Makalahnya ada di sini .
Kebijakan peluncuran ... adalah kebijakan softmax linier yang didasarkan pada fitur berbasis pola yang cepat, dihitung secara lokal, ...
Saya tidak mengerti apa itu kebijakan peluncuran, dan bagaimana kaitannya dengan jaringan kebijakan memilih langkah. Adakah penjelasan yang lebih sederhana?
machine-learning
monte-carlo
reinforcement-learning
games
Halo Dunia
sumber
sumber
Jawaban:
Ketika mereka mengatakan bahwa kebijakan peluncuran (saya percaya mereka meminjam istilah "peluncuran" dari backgammon) adalah fungsi softmax linear yang mereka maksudkan adalah generalisasi fungsi sigmoid yang digunakan dalam regresi logistik. Fungsi ini berbentuk
sumber