Saya bertanya-tanya bagaimana cara melatih jaringan saraf untuk permainan papan berbasis bulat seperti, tic-tac-toe, catur, risiko atau permainan berbasis putaran lainnya. Mendapatkan langkah selanjutnya dengan inferensi tampaknya cukup mudah, dengan memberi makan status permainan sebagai input dan menggunakan output sebagai langkah untuk pemain saat ini. Namun melatih AI untuk tujuan itu tampaknya tidak lurus ke depan, karena:
- Mungkin tidak ada peringkat jika satu gerakan baik atau tidak, jadi pelatihan gerakan tunggal tampaknya bukan pilihan yang tepat
- Menggunakan semua status permainan (input) dan gerakan (output) dari seluruh permainan untuk melatih jaringan saraf, tampaknya bukan pilihan yang tepat karena tidak semua gerakan dalam game yang hilang mungkin buruk
Jadi saya bertanya-tanya bagaimana cara melatih jaringan saraf untuk permainan papan berbasis bulat? Saya ingin membuat jaringan saraf untuk tic-tac-toe menggunakan tensorflow.
sumber
Saya pikir Anda harus terbiasa dengan pembelajaran penguatan. Dalam bidang pembelajaran mesin ini, agen berinteraksi dengan lingkungannya dan setelah itu agen mendapat hadiah. Sekarang, agen adalah jaringan saraf lingkungan permainan dan agen bisa mendapatkan hadiah +1 jika menang atau -1 jika kalah. Anda dapat menggunakan negara ini, tindakan, hadiah pengalaman tuple untuk melatih agen. Saya dapat merekomendasikan ceramah David Silver di youtube dan buku Sutton juga.
sumber