Apa kebijakan peluncuran di koran AlphaGo?

Makalahnya ada di sini .

Kebijakan peluncuran ... adalah kebijakan softmax linier yang didasarkan pada fitur berbasis pola yang cepat, dihitung secara lokal, ...

Saya tidak mengerti apa itu kebijakan peluncuran, dan bagaimana kaitannya dengan jaringan kebijakan memilih langkah. Adakah penjelasan yang lebih sederhana?

machine-learning monte-carlo reinforcement-learning games Halo Dunia
sumber

Makalah ini tampaknya berada di belakang paywall ...

Vladislavs Dovgalecs

@ xeon Saya tidak bisa menahannya. Saya memiliki akses penuh ke koran tetapi saya tidak dapat mengunggahnya di sini (undang-undang hak cipta). Mungkin google sekitar jika ada orang lain yang memiliki salinan?

HelloWorld

@xeon airesearch.com/wp-content/uploads/2016/01/…

dsaxton

Jawaban:

$p(a \mid s)$ $a$ $s$ $p$

Ketika mereka mengatakan bahwa kebijakan peluncuran (saya percaya mereka meminjam istilah "peluncuran" dari backgammon) adalah fungsi softmax linear yang mereka maksudkan adalah generalisasi fungsi sigmoid yang digunakan dalam regresi logistik. Fungsi ini berbentuk

\frac{e^{β_{i}^{T} x}}{\sum_{j = 1}^{k} e^{β_{j}^{T} x}}

$\frac{e^{\beta^T_i x}}{\sum_{j=1}^{k} e^{\beta_j^T x}}$

$x$ $\beta_i$ $a_i$

dsaxton
sumber