Apakah pemain yang kuat memindahkan bagian mereka dengan frekuensi relatif yang berbeda dari pemain yang lemah?

24

Pertanyaan ini adalah bagian dari pertanyaan Ramon Snir sebelumnya tentang seberapa sering berbagai jenis keping, rata-rata, dalam permainan catur. Pertanyaan saya:

Apakah jumlah relatif gerakan untuk jenis potongan yang diberikan berbeda ketika seseorang melihat permainan pemain yang lebih kuat sebagai lawan dari permainan pemain yang lebih lemah? (Sebagai contoh, mungkin pemain yang lebih lemah cenderung membuat lebih banyak pion dengan mengorbankan bagian, atau mereka membuat terlalu banyak gerakan ratu. Saya tidak tahu.)

Saya bisa memberikan jawaban untuk pertanyaan sebelumnya menggunakan data mentah yang telah diekstraksi dari database besar oleh orang lain . Data itu berasal dari sampel game 4M +, mulai dari grandmaster play hingga lemah amatir, dan jumlah agregat untuk total bergerak yang diberikan di sana tidak membeda-bedakan berdasarkan kekuatan pemain. Menjawab pertanyaan saya akan membutuhkan mendapatkan data terpisah untuk game antara pemain kuat dan game antara pemain lemah, dan saya mencari jawaban yang didukung oleh data daripada anekdot .

Inilah bentuk pertanyaan saya yang lebih spesifik:

Apakah ada beberapa ambang batas peringkat Elo N sehingga, ketika seseorang melihat jumlah rata-rata gerakan dalam permainan yang dirinci berdasarkan jenis permainan, ada perbedaan yang signifikan antara apa yang ditemukan di game yang menampilkan pemain di atas N, dan apa yang ditemukan di game menampilkan pemain di bawah N.

Akan menarik jika lebih banyak hal semacam ini dapat ditemukan juga, yaitu perbedaan nyata antara pemain yang lebih kuat dan lebih lemah yang dapat dideteksi oleh data mining. Temuan seperti itu bisa mengarah pada perilaku spesifik yang menahan pemain, atau sebaliknya yang mendorong mereka maju. Sekarang, mungkin tidak ada perbedaan seperti itu hanya dengan melihat data seperti ini, tapi saya tertarik untuk mengetahuinya juga.

ETD
sumber
Saya agak curiga dengan data agregat seperti itu, karena mungkin kehilangan intinya. Beberapa game ditentukan dengan bermain dengan bagian lainnya dengan mendorong pion. Frekuensi sepotong bergerak tidak mengatakan apa-apa tentang kualitas gerakan. Ada aturan praktis yang mengatakan bahwa Anda tidak harus sering memindahkan sepotong pun di pembukaan. Namun, pemain yang kuat kadang-kadang mengadopsi taktik ini, jika itu dibenarkan oleh posisi.
Michael
@Michael, saya setuju sepenuhnya bahwa faktor seperti yang saya tanyakan tidak akan dengan sendirinya menjadi indikasi permainan yang baik; jika saya memindahkan jenis karya saya pada frekuensi relatif yang sama dengan bahasa Aronian, katakanlah, tentu saja itu tidak berarti bahwa saya bermain sebaik dia. Tapi itulah tepatnya mengapa bisa di atas, katakanlah, Elo 1800, tidak ada perbedaan yang dapat terdeteksi dalam frekuensi relatif ini (meskipun ada sejumlah besar kemampuan di atas 1800), sementara di bawah 1800 itu secara signifikan condong. Temuan dalam data dapat menunjukkan satu faktor di balik pemain yang berada di bawah ambang batas kekuatan itu.
ETD
1
Ingatlah bahwa data akan menunjukkan kepada Anda apa yang dilakukan oleh grandmaster ketika mereka berhadapan dengan grandmaster lainnya , dan juga dengan pemain yang lebih sedikit. Idealnya Anda ingin membandingkan apa yang dilakukan pemain yang lebih baik dan lebih buruk di posisi yang sama , tetapi itu mungkin tidak akan mungkin melalui pendataan, kecuali di pembukaan.
Evan Harper
@EdDean - ini topik yang cukup menarik. Adakah yang tahu di mana tepatnya dia mendapatkan game 4M +? Apakah ada tempat di mana kita bisa mendapatkan sesuatu yang berukuran signifikan (katakanlah, 100K + game), dari sumber yang tepercaya tetapi gratis? Saya secara khusus memikirkan sumber yang dapat diunduh dengan mudah, sebagai lawan dari "penelusuran online".
Daniel B
1
Sebagai tindak lanjut, Wikipedia memiliki halaman yang bagus tentang koleksi permainan catur . Dari semua ini, tautan pertama tampaknya yang paling menjanjikan (jumlah relatif kecil dari PGN yang di-zip untuk diunduh), tetapi sebagian besar tidak ada (kode ECO B ke E), yang akan membuat analisis sangat satu sisi dan sangat tidak berguna.
Daniel B

Jawaban:

29

Berikut ini adalah analisis kotor cepat berdasarkan database PGN "Juta Pangkalan". Saya melakukan ini dengan sedikit terburu-buru, jadi mungkin ada kesalahan dalam pemrograman atau logika saya. Tolong jangan menggunakannya untuk hal yang terlalu serius. Pembaruan - Catatan: Sebenarnya, saya baru saja menyadari bahwa saya membuat kesalahan dengan kumpulan data, dan terbatas pada 1 juta catatan pertama. Saya akan memposting pembaruan ketika saya mendapatkan waktu luang untuk menjalankannya lagi secara penuh. Sementara itu, angka-angka ini seharusnya menarik.

Memperoleh data:

Saya memperoleh file Million Base 1.74 dari URL ini , karena situs top-5000.nl tampaknya 404 ketika Anda benar-benar mencoba untuk mengunduhnya. File tersebut berisi lebih dari 1 juta game dalam format ekspor PGN (artinya, mudah diurai).

Sayangnya, lebih dari 60% game tidak memiliki informasi peringkat (saya mencari tag "WhiteELO" dan "BlackELO"), dan bahkan lebih sedikit yang mendapat peringkat untuk kedua pemain. Pada akhirnya, saya memutuskan untuk mendapatkan ukuran sampel sebesar mungkin, dan menghitung pergerakan pemain jika peringkatnya diketahui, terlepas dari peringkat pemain lain.

Proses:

Permainan diuraikan satu per satu, dan jika peringkat pemain diketahui, semua gerakan mereka untuk permainan itu akan ditambahkan ke agregat untuk grup peringkat pemain. Saya memilih untuk membagi peringkat menjadi kelompok 100, jadi misalnya 1600 hingga 1699 adalah satu kelompok.

Karena movetext yang sebenarnya di PGN adalah SAN, saya menggunakan pintasan berikut untuk menghitung gerakan: Knight (N), Bishop (B), Rook (R), Queen (Q) dan King (K) bergerak semua dimulai dengan huruf bagian mereka . Castling (OO dan OOO) dihitung secara terpisah, sebagai kasus khusus. Semua gerakan yang tersisa dihitung sebagai gerakan gadai tanpa pemeriksaan lebih lanjut.

Tidak ada pembersihan data yang dilakukan. Tidak ada upaya untuk mengidentifikasi outlier dan menghapusnya (misalnya game yang sangat pendek dan panjang, dll). Saya terus, tetapi tidak termasuk dalam analisis berikut, hasil dari peringkat di bawah 1600 - ukuran sampel untuk permainan ini jauh di bawah 100, yang mengarah ke variasi besar dalam hasil. Data mentah disediakan di akhir posting ini.

Beberapa kekurangan informasi: saat ini, saya hanya mengumpulkan total yang sangat mendasar, dan memberikan rata-rata. Saya cukup yakin bahwa secara umum, data TIDAK terdistribusi secara normal, tetapi tidak akan dapat mengatakan lebih banyak tanpa benar-benar mengeluarkan hitungan mentah dan menjalankannya melalui program statistik. Saya dapat melakukannya, jika ada minat. Untuk saat ini, ini berarti tidak ada interval kepercayaan, atau informasi lain tentang distribusi angka yang diwakili oleh rata-rata tersebut. Saya juga belum memeriksa berapa tahun rentang set data - jika ini mewakili bertahun-tahun, mungkin bermanfaat untuk mencoba mengoreksi kekuatan keseluruhan lapangan.

Beberapa Tren:

Sebuah kata pada peringkat pemain - kelompok peringkat yang paling sering ditemui adalah, dalam urutan: 2400 hingga 2500, 2500 hingga 2600, dan 2300 hingga 2400. Grup peringkat ini memberikan 72% dari jumlah pertandingan yang dihitung.

Melihat hasil yang sebenarnya, panjang game rata-rata sedikit mengejutkan:

Jumlah rata-rata gerakan berdasarkan grup peringkat

Kelompok pemeringkat sub-2000 semuanya memiliki permainan yang jauh lebih singkat daripada kelompok yang lebih tinggi. Ini mungkin dijelaskan oleh kemungkinan bahwa mereka memainkan lawan yang lebih kuat (lihat peringkat rata-rata, di atas), dan bahwa mereka dikalahkan dalam gerakan yang lebih sedikit. Ini tampaknya bertentangan dengan game yang sedikit lebih pendek yang dimainkan oleh grup peringkat teratas, meskipun itu mungkin berkontribusi pada ukuran sampel yang lebih kecil.

Perbedaan yang relatif besar dalam panjang rata-rata permainan berarti bahwa memberikan frekuensi memindahkan bagian tertentu, daripada jumlah total kali sepotong dipindahkan, mungkin adalah perbandingan yang lebih adil. Menghitung hasil frekuensi dalam grafik berikut:

Pindahkan frekuensi demi sepotong

Tren berikut tampaknya ada:

  • Frekuensi gerakan ksatria tampaknya tren sedikit ke bawah dengan peringkat.
  • Bishop bergerak tren ke bawah hingga sekitar tahun 2000, lalu perlahan-lahan tren ke atas.
  • Tren pergerakan Rook naik tajam pada titik yang kira-kira sama, dan tetap lebih sering daripada gerakan Bishop dalam permainan tingkat tinggi.
  • Pion bergerak tampaknya tren sedikit ke bawah dengan kenaikan peringkat. Pengecualian besar adalah kategori teratas, 2800 hingga 2900. Ini membawa kita ke poin berikutnya:
  • Kategori peringkat teratas menyediakan outlier atau tren tren dalam sejumlah pengukuran. Ini dapat dijelaskan dalam berbagai cara - 1) ukuran sampel cukup rendah pada 363, tidak kecil, tetapi 10% dari ukuran sampel terkecil berikutnya yang disertakan. 2) Karena mereka berada di puncak grup peringkat, mereka tidak pernah memainkan lawan yang "lebih kuat" daripada diri mereka sendiri. 3) Atau hanya pada level ini, gaya permainan mereka telah melampaui level di bawah mereka. Dugaan saya adalah kombinasi dari 1) dan 2).
  • Perbedaan dalam gerakan ratu dan gerakan castling sangat kecil tanpa tren nyata, selain tren kecil ke bawah dalam kedua kasus.
  • Frekuensi gerakan raja memiliki beberapa perbedaan terbesar. Tidak ada tren yang jelas terlihat, dan tampaknya mengubah arah 3 atau 4 kali.

Analisis lebih lanjut

Beberapa ide untuk analisis masa depan:

  • Perbaikan statistik dasar: Saya merasa game yang sangat pendek dan panjang mungkin harus dikecualikan. Juga, distribusi jumlah aktual mungkin sangat jitu.
  • Memisahkan analisis lebih jauh juga dapat menghasilkan hasil yang menarik. Sebagai contoh, saya akan tertarik untuk mengetahui bagaimana frekuensi untuk hitam dan putih cocok (Apakah mereka sama, atau berbeda? Mengapa?).
  • Kategorisasi berdasarkan perbedaan peringkat mungkin juga menarik, apakah pemain memainkan lawan yang lebih kuat (katakanlah, 200 peringkat di atas mereka) bermain dengan frekuensi gerakan yang berbeda? Sayangnya ini membutuhkan ELO kedua pemain untuk diketahui, yang jarang terjadi dalam kumpulan data ini.
  • Kecenderungan untuk kastil pendek vs kastil juga dapat bervariasi berdasarkan peringkat.
  • Sepotong statistik promosi, beberapa analisis struktural ringan (misalnya kejadian bidak ganda, en passant, pin, garpu, ditunjukkan oleh rating) mungkin berwawasan luas.
  • "Heat-map" penempatan piece di papan aktual, ditunjukkan oleh rating mungkin juga cukup menarik.

Kumpulan data dalam format CSV

Bagi mereka yang ingin bermain dengan data, merasa bebas.

Kisaran Peringkat, Ukuran Sampel, Panjang Permainan Rata-Rata, Pergerakan Gadai Rata-Rata, Pergerakan Ksatria Rata-rata, Pergerakan Uskup Rata-Rata, Pergerakan Rook Rata, Pergerakan Ratu Rata-Rata, Pergerakan Raja Rata-Rata, Castling Rata-rata

1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857
Daniel B
sumber
Bagus! Terima kasih sudah menjalankan angkanya di sini. Ngomong-ngomong, jika Anda berpikir salah satu ide di bagian "analisis lebih lanjut" Anda siap untuk ditanyakan, jangan ragu untuk melakukannya.
ETD
1
@EdDean terima kasih, dan saya mungkin akan melakukan beberapa analisis lebih lanjut ketika waktu mengizinkan. Saya juga memperhatikan beberapa perbaikan lebih lanjut yang dapat dilakukan (misalnya menyaring game blitz dan simultan, dan mungkin yang lainnya), jadi mungkin ini akan menjadi sedikit pekerjaan. Saya akan membuat pembaruan ketika saya memiliki sesuatu.
Daniel B
1
Wow. Itu jawaban yang cukup. Fantastis.
James Tomasino
3
Saya tidak akan terkejut jika, katakanlah, peningkatan jumlah gerakan benteng di antara pemain kuat hanya berarti bahwa mereka lebih cenderung berakhir di ujung benteng yang panjang, daripada bahwa mereka bergerak benteng lebih sering di posisi yang sama.
dfan
3
@ PDF Saya setuju, angka-angka ini mungkin lebih berkaitan dengan berbagai efek urutan ke-2, mis. pemain yang berperingkat lebih rendah melakukan kesalahan awal dan tidak masuk ke permainan akhir yang panjang, dll. Saya punya berbagai ide tentang bagaimana hal itu dapat dibuat lebih akurat, tetapi sayangnya tidak ada waktu untuk mengimplementasikannya.
Daniel B