Fungsi evaluasi mesin catur, baik yang dipakai sebagai jaring saraf atau kode eksplisit, selalu dapat memberikan nilai pada posisi dewan mana pun. Jika Anda memberikannya posisi dewan, bahkan yang absurd yang tidak akan pernah terjadi dalam permainan, itu akan dapat memuntahkan angka yang menunjukkan betapa menguntungkannya bagi satu pemain atau yang lain. Karena jumlah posisi dewan dalam catur sangat besar, pelatihan hanya dapat terjadi pada sampel pohon permainan yang sangat kecil. Mesin tidak hanya mengingat nilai posisi papan yang dihitung sebelumnya, tetapi melakukan perhitungan berdasarkan susunan potongan. Untuk contoh non-neural-net, bagian dari evaluasi mesin catur mungkin untuk menambah nilai setiap bagian di sisinya dan mengurangi nilai total dari potongan lawan. Kemudian,
Ketika mesin tidak terlatih, nilai yang ditetapkan untuk suatu posisi mungkin juga acak karena parameter fungsi evaluasi dimulai dengan (biasanya) nilai acak. Tujuan dari fase pelatihan adalah untuk menyesuaikan parameter mesin sehingga memberikan skor tinggi ke posisi papan yang kemungkinan negara pemenang untuk pemain.
Dari kertas di AlphaZero (halaman 3):
Parameter jaringan saraf dalam di AlphaZero dilatih oleh pembelajaran penguatan diri, dimulai dari parameter yang diinisialisasi secara acak. Game dimainkan dengan memilih gerakan untuk kedua pemain oleh MCTS. Pada akhir pertandingan, posisi terminal diberi skor sesuai dengan aturan permainan untuk menghitung hasil pertandingan: −1 untuk kekalahan, 0 untuk imbang, dan +1 untuk menang. Parameter jaringan saraf diperbarui untuk meminimalkan kesalahan antara hasil yang diprediksi dan hasil permainan, dan untuk memaksimalkan kemiripan vektor kebijakan dengan probabilitas pencarian.
[simbol matematika dihapus dari kutipan]
Singkatnya, selama pelatihan, AlphaZero memainkan pertandingan melawan dirinya sendiri. Ketika permainan selesai, hasil dari permainan dan keakuratan prediksi dalam bagaimana permainan akan dilanjutkan digunakan untuk menyesuaikan jaring saraf sehingga akan lebih akurat selama pertandingan berikutnya. AlphaZero tidak menyimpan catatan dari setiap posisi yang dilihatnya, tetapi menyesuaikan diri sehingga dapat lebih akurat mengevaluasi setiap papan yang dilihatnya di masa depan.