Pertanyaan ini adalah bagian dari pertanyaan Ramon Snir sebelumnya tentang seberapa sering berbagai jenis keping, rata-rata, dalam permainan catur. Pertanyaan saya:
Apakah jumlah relatif gerakan untuk jenis potongan yang diberikan berbeda ketika seseorang melihat permainan pemain yang lebih kuat sebagai lawan dari permainan pemain yang lebih lemah? (Sebagai contoh, mungkin pemain yang lebih lemah cenderung membuat lebih banyak pion dengan mengorbankan bagian, atau mereka membuat terlalu banyak gerakan ratu. Saya tidak tahu.)
Saya bisa memberikan jawaban untuk pertanyaan sebelumnya menggunakan data mentah yang telah diekstraksi dari database besar oleh orang lain . Data itu berasal dari sampel game 4M +, mulai dari grandmaster play hingga lemah amatir, dan jumlah agregat untuk total bergerak yang diberikan di sana tidak membeda-bedakan berdasarkan kekuatan pemain. Menjawab pertanyaan saya akan membutuhkan mendapatkan data terpisah untuk game antara pemain kuat dan game antara pemain lemah, dan saya mencari jawaban yang didukung oleh data daripada anekdot .
Inilah bentuk pertanyaan saya yang lebih spesifik:
Apakah ada beberapa ambang batas peringkat Elo N sehingga, ketika seseorang melihat jumlah rata-rata gerakan dalam permainan yang dirinci berdasarkan jenis permainan, ada perbedaan yang signifikan antara apa yang ditemukan di game yang menampilkan pemain di atas N, dan apa yang ditemukan di game menampilkan pemain di bawah N.
Akan menarik jika lebih banyak hal semacam ini dapat ditemukan juga, yaitu perbedaan nyata antara pemain yang lebih kuat dan lebih lemah yang dapat dideteksi oleh data mining. Temuan seperti itu bisa mengarah pada perilaku spesifik yang menahan pemain, atau sebaliknya yang mendorong mereka maju. Sekarang, mungkin tidak ada perbedaan seperti itu hanya dengan melihat data seperti ini, tapi saya tertarik untuk mengetahuinya juga.
Jawaban:
Berikut ini adalah analisis kotor cepat berdasarkan database PGN "Juta Pangkalan". Saya melakukan ini dengan sedikit terburu-buru, jadi mungkin ada kesalahan dalam pemrograman atau logika saya. Tolong jangan menggunakannya untuk hal yang terlalu serius. Pembaruan - Catatan: Sebenarnya, saya baru saja menyadari bahwa saya membuat kesalahan dengan kumpulan data, dan terbatas pada 1 juta catatan pertama. Saya akan memposting pembaruan ketika saya mendapatkan waktu luang untuk menjalankannya lagi secara penuh. Sementara itu, angka-angka ini seharusnya menarik.
Memperoleh data:
Saya memperoleh file Million Base 1.74 dari URL ini , karena situs top-5000.nl tampaknya 404 ketika Anda benar-benar mencoba untuk mengunduhnya. File tersebut berisi lebih dari 1 juta game dalam format ekspor PGN (artinya, mudah diurai).
Sayangnya, lebih dari 60% game tidak memiliki informasi peringkat (saya mencari tag "WhiteELO" dan "BlackELO"), dan bahkan lebih sedikit yang mendapat peringkat untuk kedua pemain. Pada akhirnya, saya memutuskan untuk mendapatkan ukuran sampel sebesar mungkin, dan menghitung pergerakan pemain jika peringkatnya diketahui, terlepas dari peringkat pemain lain.
Proses:
Permainan diuraikan satu per satu, dan jika peringkat pemain diketahui, semua gerakan mereka untuk permainan itu akan ditambahkan ke agregat untuk grup peringkat pemain. Saya memilih untuk membagi peringkat menjadi kelompok 100, jadi misalnya 1600 hingga 1699 adalah satu kelompok.
Karena movetext yang sebenarnya di PGN adalah SAN, saya menggunakan pintasan berikut untuk menghitung gerakan: Knight (N), Bishop (B), Rook (R), Queen (Q) dan King (K) bergerak semua dimulai dengan huruf bagian mereka . Castling (OO dan OOO) dihitung secara terpisah, sebagai kasus khusus. Semua gerakan yang tersisa dihitung sebagai gerakan gadai tanpa pemeriksaan lebih lanjut.
Tidak ada pembersihan data yang dilakukan. Tidak ada upaya untuk mengidentifikasi outlier dan menghapusnya (misalnya game yang sangat pendek dan panjang, dll). Saya terus, tetapi tidak termasuk dalam analisis berikut, hasil dari peringkat di bawah 1600 - ukuran sampel untuk permainan ini jauh di bawah 100, yang mengarah ke variasi besar dalam hasil. Data mentah disediakan di akhir posting ini.
Beberapa kekurangan informasi: saat ini, saya hanya mengumpulkan total yang sangat mendasar, dan memberikan rata-rata. Saya cukup yakin bahwa secara umum, data TIDAK terdistribusi secara normal, tetapi tidak akan dapat mengatakan lebih banyak tanpa benar-benar mengeluarkan hitungan mentah dan menjalankannya melalui program statistik. Saya dapat melakukannya, jika ada minat. Untuk saat ini, ini berarti tidak ada interval kepercayaan, atau informasi lain tentang distribusi angka yang diwakili oleh rata-rata tersebut. Saya juga belum memeriksa berapa tahun rentang set data - jika ini mewakili bertahun-tahun, mungkin bermanfaat untuk mencoba mengoreksi kekuatan keseluruhan lapangan.
Beberapa Tren:
Sebuah kata pada peringkat pemain - kelompok peringkat yang paling sering ditemui adalah, dalam urutan: 2400 hingga 2500, 2500 hingga 2600, dan 2300 hingga 2400. Grup peringkat ini memberikan 72% dari jumlah pertandingan yang dihitung.
Melihat hasil yang sebenarnya, panjang game rata-rata sedikit mengejutkan:
Kelompok pemeringkat sub-2000 semuanya memiliki permainan yang jauh lebih singkat daripada kelompok yang lebih tinggi. Ini mungkin dijelaskan oleh kemungkinan bahwa mereka memainkan lawan yang lebih kuat (lihat peringkat rata-rata, di atas), dan bahwa mereka dikalahkan dalam gerakan yang lebih sedikit. Ini tampaknya bertentangan dengan game yang sedikit lebih pendek yang dimainkan oleh grup peringkat teratas, meskipun itu mungkin berkontribusi pada ukuran sampel yang lebih kecil.
Perbedaan yang relatif besar dalam panjang rata-rata permainan berarti bahwa memberikan frekuensi memindahkan bagian tertentu, daripada jumlah total kali sepotong dipindahkan, mungkin adalah perbandingan yang lebih adil. Menghitung hasil frekuensi dalam grafik berikut:
Tren berikut tampaknya ada:
Analisis lebih lanjut
Beberapa ide untuk analisis masa depan:
Kumpulan data dalam format CSV
Bagi mereka yang ingin bermain dengan data, merasa bebas.
Kisaran Peringkat, Ukuran Sampel, Panjang Permainan Rata-Rata, Pergerakan Gadai Rata-Rata, Pergerakan Ksatria Rata-rata, Pergerakan Uskup Rata-Rata, Pergerakan Rook Rata, Pergerakan Ratu Rata-Rata, Pergerakan Raja Rata-Rata, Castling Rata-rata
sumber