Apa kebijakan peluncuran di koran AlphaGo?

11

Makalahnya ada di sini .

Kebijakan peluncuran ... adalah kebijakan softmax linier yang didasarkan pada fitur berbasis pola yang cepat, dihitung secara lokal, ...

Saya tidak mengerti apa itu kebijakan peluncuran, dan bagaimana kaitannya dengan jaringan kebijakan memilih langkah. Adakah penjelasan yang lebih sederhana?

Halo Dunia
sumber
Makalah ini tampaknya berada di belakang paywall ...
Vladislavs Dovgalecs
@ xeon Saya tidak bisa menahannya. Saya memiliki akses penuh ke koran tetapi saya tidak dapat mengunggahnya di sini (undang-undang hak cipta). Mungkin google sekitar jika ada orang lain yang memiliki salinan?
HelloWorld

Jawaban:

11

p(as)asp

Ketika mereka mengatakan bahwa kebijakan peluncuran (saya percaya mereka meminjam istilah "peluncuran" dari backgammon) adalah fungsi softmax linear yang mereka maksudkan adalah generalisasi fungsi sigmoid yang digunakan dalam regresi logistik. Fungsi ini berbentuk

eβiTxj=1keβjTx

xβiai

dsaxton
sumber