Bagaimana cara mengevaluasi kinerja pemain secara otomatis dalam permainan?

8

Misalkan saya memiliki permainan yang lengkap. Saya tidak memiliki peringkat Elo dari para pemain. Tujuan saya adalah untuk mengevaluasi kinerja pemain dalam permainan hanya berdasarkan gerakannya. Apakah ini dapat dilakukan secara otomatis menggunakan program catur?

Hasilnya bisa berupa perkiraan nilai Elo-nya, atau hanya beberapa nilai yang menunjukkan tingkat kekuatan atau kesalahannya.

Jika itu membantu, basis data permainan pemain dapat diberikan. Sekali lagi, tanpa peringkat Elo.

Motivasi saya sederhana. Saya bermain catur melalui internet dan ingin secara otomatis melacak kemajuan saya, berdasarkan permainan itu sendiri, bukan pada peringkat di situs. Saya level pemula (atas).

Solusi sederhana adalah dengan membubuhi keterangan permainan menggunakan mesin komputer dan nomor track?!,? dan ?? tanda. Namun, itu tidak terlalu akurat, dan saya ingin mendapatkan lebih banyak ide :)

analysis rating elo evaluation performance Dennis Golomazov
sumber

Setiap evaluasi berdasarkan satu game akan datang dengan margin kesalahan yang sangat besar. "Kemajuan" Anda akan naik dan turun terus-menerus dan saya ragu Anda akan dapat melacak apa pun selain "kemajuan" jangka panjang dengan metode ini (yang pada dasarnya turun menjadi rata-rata dibanding game). Peringkat catur (atau peringkat di hampir semua olahraga lain) menghindari masalah ini dan saya tidak melihat ada yang salah dengan menggunakan peringkat online sebagai indikator kekuatan Anda.

user1583209

16

Peringkat Situs pada kontrol waktu lambat bisa sangat andal untuk server di mana pemain yang kuat berkumpul (ICC, FICS untuk menyebutkan beberapa) karena peringkat SANGAT mencerminkan kekuatan bermain Anda yang sebenarnya jika Anda telah memainkan cukup game. Untuk sistem peringkat yang sangat standar seperti USCF dan FIDE / ELO, Anda akan melihat bahwa kelas-kelas peringkat yang berbeda cenderung menunjukkan jenis kesalahan yang masih dilakukan oleh para pemain. Improving Chess Thinker dari NM Dan Heisman melakukan pekerjaan yang sangat baik untuk membahas jenis kesalahan yang dilakukan pemain di seluruh kelas peringkat.

Sudahkah Anda mencoba banyak buku swa-uji di luar sana? Ujian Catur Penilaian Catur Igor Khmelnitsky dan Uji, Evaluasi, dan Tingkatkan Danny Kopec Anda adalah buku-buku bagus yang memungkinkan Anda melacak kemajuan Anda dengan melihat bagaimana kinerja Anda terhadap posisi tes bertingkat.

Pendekatan membandingkan-saya-bergerak-dengan-mesin adalah cara lain untuk melakukan ini tetapi sekali lagi, ?? /? gerakan sebenarnya hanya menunjukkan kesalahan taktis, bukan kesalahan strategis atau posisi atau bahkan perilaku atau manajemen waktu yang mungkin Anda buat.

Itu sebabnya bermain OTB / game online kontrol waktu yang lambat melawan oposisi yang setara dengan yang lebih kuat dan membuat mereka ditinjau + dikritik oleh pemain yang lebih kuat adalah cara yang efisien untuk meningkatkan. Kesalahan Anda di setiap kategori (taktik, pengetahuan, proses berpikir, manajemen waktu, dll.) Disorot dan Anda bisa mengukur kemajuan dalam hal kesalahan yang telah Anda hentikan.

Meskipun satu varian menyenangkan yang dapat Anda coba dengan mesin di rumah: Mengapa tidak memperpanjang metode evaluasi mesin Anda untuk secara visual mengamati kualitas / kinerja pemain melalui grafik evaluasi? Dengan kata lain, ambil skor evaluasi mesin per gerakan dan plot mereka (beberapa perangkat lunak gratis seperti SCID melakukan ini untuk Anda) selama bergerak.

Misalnya: Pemula dua peringkat akan memiliki permainan yang terlihat seperti:

masukkan deskripsi gambar di sini

Perhatikan betapa bergeriginya ini. Kedua belah pihak membuat banyak kesalahan mengerikan (lereng paku!) Dan juga seberapa sering mereka gagal mengeksploitasi kesalahan mengerikan orang lain.

Paku selalu menyenangkan untuk dilihat: masukkan deskripsi gambar di sini

Dua pemain perantara (USCF 1400-1600) mungkin memiliki permainan yang terlihat seperti: masukkan deskripsi gambar di sini

Memang terlihat bergerigi, tetapi perhatikan bagaimana sumbu y (evaluasi mesin) jauh lebih kecil ... menunjukkan bahwa para pemain ini lebih berpengalaman dan bermain catur berkualitas lebih tinggi daripada para pemula.

Untuk perbandingan terakhir, game Grandmaster 1911 akan terlihat seperti ini:

masukkan deskripsi gambar di sini

Tidak ada komentar yang diperlukan di sini :) Orang-orang ini benar-benar tidak membuat banyak kesalahan, bukan?

Jika Anda bisa menyusun heuristik Anda sendiri untuk memetakan lereng + skala grafik evaluasi untuk keterampilan / kinerja pemain , mungkin ini adalah salah satu cara untuk melangkah? :)

shivsky
sumber

2

Perhatikan bahwa saya ingin melempar peringatan bahwa skor evaluasi mesin tidak begitu dapat diandalkan dalam beberapa posisi bernuansa dan beberapa rasa haus material akan menganggap pembukaan jenis Gambit sangat berbeda dari manusia. Berapa lama Anda mengatur mesin Anda pada posisi setengah bergerak saat melewati permainan juga akan mempengaruhi hal-hal sedikit. Diperingatkan! :)

shivsky

Program apa yang Anda gunakan untuk menghasilkan grafik ini? Saya telah scid + stockfish, apakah saya memiliki opsi ini?

Uri

6

Untuk peringkat kualitas pemain yang sangat akurat, Anda dapat menggunakan alat luar biasa yang disediakan oleh www.chess-db.com. Ini memungkinkan Anda mengunggah game dan setelah beberapa menit itu menghasilkan kualitas kedua pemain dalam persentase dibandingkan dengan gerakan terbaik dari mesin yang kuat.

Ini adalah halaman untuk mengunggah file PGN: http://chess-db.com/public/game_upload.jsp

Dan ini adalah contoh hasilnya: http://chess-db.com/public/game.jsp?id=Pablo%20Bento.Shredder%20Android.107755008

pengguna1657
sumber

2

Apa yang Anda minta tidak ada menurut pengetahuan saya. Namun, ini ide saya:

Anda akan memerlukan sampel dengan fitur-fitur berikut, (1) Posisi catur, (2) Gerakan dibuat di posisi, (3) Peringkat pemain yang bergerak.

Katakanlah Anda memiliki 1 miliar sampel. Anda dapat melatih algoritme komputer pada sampel-sampel ini yang dapat memprediksi untuk setiap gerakan dalam posisi kualitas perpindahan sehubungan dengan peringkat. Semua peringkat untuk semua gerakan dapat dirata-ratakan untuk mendapatkan perkiraan perkiraan pemain dan kualitas permainannya.

Ini adalah ide kasar yang bisa dipoles lebih lanjut.

Rafiek
sumber

Ini tidak bekerja. Di sebagian besar gim, Anda akan relatif cepat berada di posisi yang tidak ada dalam basis data - ya, bahkan jika Anda entah bagaimana mendapatkan akses ke satu miliar basis data gim. Dan Anda akan dihukum jika lawan Anda bermain lemah - setelah 1.e4 e5 2.Qh5, tidak peduli apa pun yang dimainkan Black, ia akan memiliki peringkat rata-rata yang rendah, karena pembukaan itu dimainkan lebih banyak pada level yang lebih rendah daripada yang lebih tinggi. (Heck, bahkan 1 ... e5 sendiri mungkin memiliki peringkat rata-rata yang agak rendah.) Apa yang terjadi setelah pembukaan yang diketahui adalah cara yang lebih menunjukkan kekuatan pemain daripada berapa lama mereka mengikuti teori.

DM

Saya memberikan jawaban ini 5 tahun sebelum AlphaZero. Sekarang kita semua bisa meminta AlphaZero untuk memberi anotasi game kami untuk kami dan memberi tahu kami seberapa baik yang kami lakukan. Kita mungkin hampir sampai pada titik bahwa kita bahkan dapat bertanya MENGAPA suatu langkah baik atau buruk. Itulah yang Anda benar-benar perlu tingkatkan. Peringkat manusia saat ini terlalu tinggi.

Rafiek

2

chess.com CAPS. Bandingkan skor CAPS dari chess.com (perlu berlangganan), ke tabel yang ditemukan dalam grafik ini: https://www.chess.com/article/view/better-than-ratings-chess-com-s-new-caps -sistem . Juga menarik: https://www.chess.com/article/view/who-was-the-best-world-chess-champion-in-history

Catatan hati-hati: Skor caps untuk siapa pun game tertentu tidak stabil; terbaik untuk membuat beberapa skor CAPS rata-rata selama batch game. Saat ini, setahu saya, CAPS dapat, dengan ekstensi, memprediksi peringkat Elo dari serangkaian gerakan. Catatan lain: Skor CAPS ada dalam ruang hampa tanpa memperhatikan kontrol waktu. Saya bermain catur yang lebih baik pada kontrol waktu yang lebih lambat daripada yang saya lakukan dalam permainan peluru 1 menit. CAPS akan melihat perbedaan ini dalam kekuatan permainan dan karenanya memberikan peringkat yang lebih rendah untuk permainan peluru. Ini tidak berarti bahwa saya bukan orang yang sama yang memainkan permainan kontrol waktu yang lebih lambat!

JWILD
sumber

0

Berikut adalah beberapa ide tentang parameter apa yang diukur. Jumlah kesalahan per game. Seberapa sering Anda memiliki posisi yang sama atau lebih baik setelah 10 gerakan, 15 gerakan, 20 gerakan. Seberapa sering Anda berhasil menggunakan kesalahan lawan. Seberapa sering Anda menggambar atau memenangkan permainan akhir yang ditarik secara objektif. Seberapa sering Anda berhasil menemukan kombinasi kawin paksa. Seberapa sering Anda berhasil mempertahankan endgames yang hilang secara objektif. Seberapa sering Anda kehilangan waktu.

Rauan Sagit
sumber

Bagaimana cara mengevaluasi kinerja pemain secara otomatis dalam permainan?

Jawaban: