Undian Magnus Carlsen pada putaran kemarin London Chess Classic 2012 meyakinkan bahwa peringkatnya dalam daftar peringkat FIDE yang diterbitkan berikutnya akan melampaui rekor Kasparov sebelumnya pada 2851. Saya telah melihat / mendengar penggemar catur yang bersemangat memperdebatkan manfaat relatif dari pencapaian peringkat Carlsen dibandingkan dengan Kasparov versus, katakanlah, Fischer. Untuk lebih jelasnya, bukan itu yang saya kejar di sini.
Salah satu elemen penting dari diskusi tersebut adalah gagasan apakah peringkat Elo secara umum telah mengalami inflasi dari waktu ke waktu: apakah ada lebih banyak 2.700+ grandmaster hari ini daripada 20 tahun yang lalu karena peningkatan kekuatan bermain secara umum, atau hanya karena beberapa tren inflasi keseluruhan dalam jumlah? Saya juga tidak mencoba untuk meminta pendapat kosong tentang apakah itu benar atau tidak. Apa yang saya tertarik ketahui:
Apa upaya penelitian serius yang telah dilakukan untuk menjawab pertanyaan empiris mengenai apakah peringkat FIDE Elo secara alami meningkat dari waktu ke waktu karena sesuatu selain dari peningkatan kekuatan keseluruhan di kumpulan pemain?
Entri Wikipedia tentang sistem peringkat Elo memiliki sedikit bicara tentang masalah ini, dan juga menunjuk ke sebuah artikel oleh Jeff Sonas dari Chessmetrics . Selain petunjuk untuk bekerja oleh orang lain, saya, untuk satu hal, juga akan menyambut jawaban yang memberikan ringkasan yang jelas dan ringkas tentang poin utama Sonas.
Jawaban:
Saya terkejut bahwa makalah "Peringkat Catur Intrinsik" oleh Ken Regan dan Guy Haworth belum diposting. Persis seperti yang diminta, penelitian serius terhadap inflasi peringkat. PDF
Pada dasarnya mereka mendapatkan game dari tiga periode (1976-1979, 1991-1994, 2006-2009), dalam beberapa rentang peringkat (misalnya kedua pemain dalam 10 poin dari 2200, dalam 10 poin dari 2300, dll), dan mengecualikan jenis permainan yang mungkin anomali, seperti pertandingan tim. Baca korannya, tampilannya cukup teliti.
Kemudian mereka membandingkan game secara sistematis dengan Rybka 3.
Beberapa kalimat dari kesimpulan:
Dalam pandangan saya, itu adalah bukti yang cukup kuat terhadap keberadaan inflasi peringkat.
sumber
Saya menusuk beberapa. Anda mungkin telah melihat halaman-halaman ini, tetapi saya tetap akan mempostingnya:
Sebuah. Halaman ini akan menarik minat Anda . Ini termasuk fotokopi surat dari Elo sendiri yang menyatakan kemungkinan:
Dia lebih lanjut menyebutkan bahwa skala peringkat tidak memiliki jangkar, tidak ada titik tetap. Bandingkan dengan atlet yang berlomba dalam satu jam; satu jam sekarang sama dengan satu jam 50 tahun yang lalu. Waktu adalah titik yang pasti.
b. Juga, bukankah pertanyaan 'inflasi' sudah dijawab oleh wahyu peringkat tinggi baru-baru ini yang keluar dari daerah terpencil? Lihat bagian "Kelompok Pemain" dari halaman ini untuk referensi tentang masalah ini. Dukungan tambahan , meskipun tidak ilmiah atau terlalu informatif. Cari "isolasi". Inilah anekdot lain yang menunjukkan apa yang terjadi dengan populasi yang terisolasi (dan kandidat lain untuk utas 'mengapa pemain catur gila'!) Saya tidak memeriksanya secara faktual tetapi harus cukup mudah dilakukan.
c. The Elo wiki artikel berbicara tentang inflasi seolah-olah itu adalah fakta yang diterima.
d. Inilah artikel erat tentang inflasi , dan tindak lanjutnya . Lihatlah pistol merokok itu pada tahun 1986!
sumber
Secara absolut, Carlsen 2012 pastinya adalah pemain yang lebih kuat dari Kasparov 1985.
Jika Carlsen 2012 bepergian dalam waktu memainkan pertandingan dengan Kasparov 1986, Carlsen akan mengalahkan Kasparov. Ini semata-mata karena persiapan yang dibantu teknologi jauh lebih efisien, dan Carlsen juga memiliki keunggulan dalam teori pembukaan, karena ia memiliki akumulasi pengetahuan 1987-2012 yang tidak dimiliki Kasparov.
Namun, Kasparov mungkin adalah pemain yang lebih kuat dari Carlsen. Jika kita mengambil FIDE Top 100 List untuk Juni 2000 (yang tertua yang dapat diperoleh), kita melihat bahwa Kasparov dengan 2849 Elo bersaing dengan rata-rata 2641 untuk 99 pengikut (Elo jarak 208 poin) sementara Calsen di Fide Top 100 untuk Desember 2012 dengan 2848 Elo bersaing dengan rata-rata 2702 untuk 99 pengikutnya (Elo jarak 146 poin).
Elo adalah tentang perbedaan poin, bukan tentang nilai absolut (perbedaan 100 poin untuk Elo berarti bahwa pemain A 2 kali lebih baik dari pemain B, 200 poin berarti 4 kali lebih baik, dan seterusnya. Jadi dengan daftar itu, itu berarti bahwa Kasparov rata-rata lebih dari 4 kali lebih baik dari 99 pengikutnya, sementara Carlsen mungkin kurang hanya 3 kali lebih baik dari rata-rata 99 pengikutnya.
Jika kita mengambil daftar itu Kasparov memiliki jarak maksimum dengan 99 pengikutnya dan membandingkan jarak itu dengan yang terbaik untuk Carlsen, kita akan dapat menentukan pemain mana yang sebenarnya terbesar, karena dengan 99 poin data, pencilan (seperti jenius lain) lakukan mitigasi.
Namun saya bertanya-tanya apakah Carlsen atau Kasparov benar-benar peduli tentang siapa yang lebih baik.
sumber
Sistem Elo memiliki dua komponen. Yang satu tidak tergantung pada sejarah, yang lain tidak. Sistemnya untuk menciptakan "peringkat kinerja" selama suatu peristiwa atau periode waktu tidak memiliki komponen historis untuk itu; itu hanyalah ukuran kinerja selama waktu yang ditentukan. (Memori gagal saya pada titik ini, tapi saya pikir ketika dia menghitung peringkat untuk FIDE ini adalah metode yang dia gunakan.)
Namun sistem Elo seperti yang digunakan oleh federasi di seluruh dunia memang memiliki komponen historis, di mana peringkat dihitung dengan menghitung delta, perubahan dari peringkat sebelumnya.
Sistem berbasis historis memiliki kecenderungan alami terhadap deflasi. Sistem ini adalah sistem tertutup, tanpa ada poin baru yang dibuat. Jadi pemain baru masuk, mengambil poin dari pemain mapan, dan kemudian keluar (melalui kematian atau pensiun) sebelum mengembalikan semua poin kembali ke batch berikutnya dari pemain yang naik.
Banyak ide telah dicoba untuk mengimbangi ini, beberapa bekerja lebih baik daripada yang lain. Menambah tekanan komersial di USCF pada awal 70-an untuk membuat peringkat naik lebih cepat (pandangan yang agak sinis adalah bahwa para pemain akan membeli buku dari USCF dan bermain di sebuah turnamen, peringkat mereka akan naik, mendorong mereka untuk membeli yang lain buku, dll.) dan inflasi adalah hal yang nyata di beberapa titik dalam sejarah.
Karena sistem Elo didasarkan pada kurva normal (bel), tidak masuk akal untuk mencoba dan mengukur inflasi dengan mengukur salah satu dari yang ekstrim; ekstrem lebih mungkin dipengaruhi oleh jumlah total pemain yang dinilai daripada oleh perubahan kekuatan aktual atau segala jenis inflasi.
sumber
Saya punya ide sederhana. Mari kita ambil komputer catur (perangkat keras + perangkat lunak) yang peringkatnya diukur 20 tahun yang lalu, melalui bermain dengan komputer catur lainnya dengan peringkat yang diketahui bahwa mereka memiliki 20 tahun yang lalu. Sekarang mari kita ukur peringkatnya sekarang (perangkat keras yang sama persis plus perangkat lunak yang sama persis), melalui bermain dengan komputer catur modern, dengan peringkat yang dikenal saat ini. Perbedaan dari dua pengukuran akan membentuk peringkat inflasi selama 20 tahun terakhir. Cukup sederhana?
sumber
Kesimpulan kertas Regan-Haworth harus diambil dengan sebutir garam, karena tampaknya bertentangan dengan analisis komputer lain dari game, pada perangkat lunak dan perangkat keras yang lebih baik dan dengan metode matematika yang lebih maju. Di sana mereka menyimpulkan (lihat Tabel 9), misalnya, bahwa Karpov pada tahun 1977 bermain hanya pada tingkat yang sedikit lebih rendah daripada Kasparov pada tahun 2001 dan Anand pada tahun 2008 (diharapkan untuk mencetak sekitar 47% poin), dan sebenarnya lebih baik daripada Topalov pada 2005 dan Ponomariov pada 2011. Karena Kasparov-2001 memiliki nilai 150 poin lebih tinggi daripada Karpov-1977, peringkat tersebut mengharapkannya untuk mencetak 70% poin. Saya tidak melihat bagaimana mendamaikan ini dengan klaim bahwa tidak ada inflasi peringkat.
Perhatikan bahwa juga, bertentangan dengan klaim implisit dalam pertanyaan, tidak ada mekanisme penilaian yang mencerminkan perubahan kekuatan keseluruhan dalam kumpulan pemain . Mungkin secara empiris kasus bahwa kekuatan khas dari pemain 2600 tidak berubah selama periode waktu tertentu, tetapi ini hanya akan menjadi kebetulan dan bukan cerminan dari sifat dasar sistem ELO, dan tentu saja tidak dapat digeneralisasikan.
Jika kita lebih tepatnya mendefinisikan inflasi secara naif dan hanya mengukur peringkat rata-rata dari 100 pemain teratas, maka, seperti dapat dilihat dari tautan ini , ada inflasi yang stabil hingga 2012 dan tidak ada inflasi sejak itu - peringkat rata-rata top-100 terombang-ambing antara 2700 dan 2705 selama 7 tahun terakhir .
sumber
Pertama, Anda harus mendefinisikan apa yang Anda maksud dengan yang terbaik. Misalnya, apakah yang terbaik berarti Anda adalah pemain yang paling dominan untuk era Anda? Atau apakah itu berarti kualitas pemain Anda lebih unggul dari semua pemain lain. Dan jika kualitas adalah apa yang Anda maksudkan, lalu bagaimana Anda mendefinisikan kualitas?
Paul Morphy mungkin adalah pemain yang paling dominan. Sebagai contoh, ketika dia berusia 12 tahun dia mengalahkan pemain sepuluh besar (Lowenthal) dalam pertandingan 3-0. Menurut Edo dan caturmetri dia mungkin sudah salah satu pemain terbaik di dunia pada usia 12! Pada usia 21, ia bermain melawan simultan melawan 5 pemain top (Bird, Barnes, Boden, De Reviere, dan Lowenthal) dan mencetak 3-2.
Namun, sebagian besar akan berpendapat bahwa dominasi adalah indikator yang buruk tentang siapa yang terbaik. Bagaimanapun, Morphy telah digambarkan sebagai pemain catur modern pertama. Pesaingnya lemah dibandingkan dengan juara berikutnya.
Definisi lain yang telah digunakan adalah kualitas permainan. Namun, definisi ini juga memiliki banyak masalah. Pada ratusan 1900, sejumlah individu berpendapat bahwa Steinitz atau Lasker adalah pemain terbaik sepanjang masa dengan alasan bahwa pengetahuan mereka tentang pembukaan dan teori modern akan membuat mereka lebih unggul dari para pemain di masa lalu. Namun, Louis Paulsen membuat beberapa argumen yang sangat pintar menentang hipotesis ini. Dia berpendapat bahwa Morphy (yang memiliki memori fotografis dan menghafal kode bar Louisana pada usia 19) jika dihidupkan kembali akan belajar bukaan dan teori modern dalam waktu satu tahun dan dapat bersaing dengan sukses melawan pemain catur modern.
Regan berpendapat bahwa pemain catur modern yang memiliki akses ke komputer catur dan metode pelatihan modern bermain lebih seperti komputer daripada pemain di masa lalu. Itu tidak mengherankan karena mereka dilatih oleh komputer tetapi apakah itu berarti bahwa pemain modern benar-benar lebih baik? Ini menimbulkan pertanyaan apa yang akan dilakukan Fischer atau Capablanca jika mereka memiliki akses ke komputer modern?
Selain itu, komputer analisis Profesor Regan menganggap saya agak tidak lengkap karena hanya melibatkan periode lima tahun dan para pemain yang termasuk dalam analisis tidak disebutkan. Analisis komputer yang lebih teliti oleh profesor Matej Guid dan Ivan Bratko menemukan bahwa sebenarnya Capablanca bermain lebih seperti komputer daripada pemain modern! https://en.chessbase.com/post/computers-choose-who-was-the-strongest-player-. Namun, Guid dan Bratko mencatat bahwa ada masalah dengan menyimpulkan bahwa Capablanca adalah pemain yang lebih baik. Mungkin gayanya yang agak tenang menyebabkan posisi yang lebih sedikit di mana ia mungkin akan salah. Oleh karena itu, persentase kesalahannya lebih rendah tetapi dia juga lebih sedikit menekan lawan-lawannya daripada pemain yang lebih agresif. Bahkan, Capablanca memiliki persentase draw yang tinggi dibandingkan dengan teman-teman seangkatannya.
Sebaliknya, pemain yang sangat taktis seperti Kasparov mungkin dihukum oleh gaya bermainnya yang lebih cenderung mengarah ke posisi yang sangat taktis di mana komputer sangat baik kesalahan menemukan. Bahkan, komputer cenderung berkinerja lebih baik terhadap pemain taktis daripada pemain posisi atau dalam posisi tertutup tertentu di mana taktik memainkan peran yang lebih kecil. Dengan demikian, analisis komputer yang mengandalkan jumlah kesalahan yang terdeteksi komputer kemungkinan akan mendukung pemain dengan posisi tertutup. Sebaliknya, pemain agresif seperti Kasparov mungkin membuat kesalahan taktis lebih dari beberapa pemain lain karena ia mencari posisi yang sangat kompleks tetapi lawan-lawannya akan membuat lebih banyak!
Oleh karena itu, Anda memerlukan sistem pembobotan kesalahan yang tidak hanya menghitung persentase kesalahan per 100 gerakan (yang pada dasarnya adalah apa yang dilakukan Regan dan Guid dan Bratko). Sebagai gantinya, Anda perlu menghitung perbedaan antara tingkat kesalahan Anda dan tingkat kesalahan lawan Anda. Bagaimanapun, catur adalah tentang melakukan kesalahan lebih sedikit daripada lawan Anda. Menekan lawan untuk menghasilkan lebih banyak kesalahan dianggap kualitas yang baik.
Namun, metode kalkulasi saya yang telah direvisi mengarah ke masalah lain yaitu analisis komputer ini tidak mempertimbangkan kekuatan lawan Anda. Misalnya, mungkin Larson mencapai peringkat caturmetri yang sangat tinggi karena gaya agresifnya (optimis) menyebabkan dominasi atas pemain yang berperingkat lebih rendah. Namun, ia mengalami kesulitan dalam pertandingan melawan pemain dengan peringkat yang sama. Pemain lain sering berargumen bahwa ia terlalu optimis dalam permainannya melawan pemain berperingkat tinggi lainnya. Untuk menghindari masalah ini, analisis pengecekan kesalahan komputer hanya melihat pertandingan melawan pesaing yang kuat (misalnya, 10, 20, atau 100 pemain teratas). Namun, itu masih belum mengatasi masalah meningkatnya persaingan yang kuat dari waktu ke waktu.
Bisakah masalah peningkatan kualitas permainan diperbaiki dengan melihat peringkat belakang seperti Chessmetrics? Sebenarnya, saya lebih suka sistem peringkat Edo kembali http://www.edochess.ca/karena asumsi statistik lebih baik. Misalnya, Chessmetrics mengasumsikan peringkat puncak pemain terjadi ketika mereka berusia 40 tahun. Saya ragu itu benar untuk semua orang dan banyak pemain menyerah catur sebelum usia itu atau permainan mereka hanya kedudukan tertinggi selama beberapa tahun (misalnya, Harry Nelson Pillsbury, Charousek, Fischer, Morphy, Rubinstein, Fine). Sayangnya, Edo hanya membandingkan peringkat pemain dari 1811 hingga 1920. Menurut Edo, Capablanca dan Morphy dinilai dua pemain tertinggi dari era ini. Menurut Chessmetrics, Capablanca dan Lasker adalah dua pemain terbaik (Morphy bahkan tidak masuk sepuluh besar.) Menurut Chessmetrics, Zukertort, Steinitz, Tarrasch, Lasker, Pillsbury, Maroczy, Marshall, Janowsky, Chigorin, Schelecter, Blackburne, Duras, Teichmann, Neumann, Vidmar, Gunsberg, Rubinstein dan Burn lebih baik daripada Morphy.
Jika inovasi mengarah ke dominasi dalam era catur spesifik dari waktu ke waktu dan menjadi semakin sulit untuk berinovasi seiring waktu karena kekuatan kompetisi meningkat, Anda tidak dapat mengukur dominasi sejati hanya dengan melihat catatan pertandingan dari 30 pemain top. Artinya, itu jauh lebih sulit bagi Magnus Carlsen untuk mendominasi lawan-lawannya daripada untuk juara masa lalu. Jika Anda melihat peringkat belakang, mudah untuk melihat bahwa besarnya perbedaan antara peringkat pemain top telah menurun dari waktu ke waktu. Jadi saya percaya model statistik tipe Edo yang mempertimbangkan kesulitan untuk mendominasi dari waktu ke waktu akan menjadi pendekatan yang lebih baik daripada yang telah dicoba sebelumnya. Sebagai contoh, Fischer adalah pemain yang cukup dominan untuk zamannya karena ia memenangkan 20 pertandingan berturut-turut. Berapakah kemenangan beruntun terpanjang Kasparov atau Karpov dibandingkan dengan kemenangan beruntun ini? Menurut Seirawan, kemenangan beruntun terpanjang mereka adalah tujuh pertandingan.
Tentu saja, saya tidak mengklaim bahwa kemenangan beruntun adalah metrik yang baik. Saya hanya berpendapat bahwa dominasi berdasarkan peringkat atau dalam pertandingan individu melawan pemain top lainnya adalah metrik yang berguna yang tidak secara eksplisit dipertimbangkan dalam sistem peringkat kembali saat ini.
Jadi analisis impian saya adalah bahwa Anda menggunakan peringkat Edo berdasarkan pada basis data yang hanya mencakup 20 atau 30 pemain teratas dari setiap periode lima tahun. Setelah Anda menyelesaikan analisis ini, Anda mengulangi hasil Anda dengan faktor dominan. Artinya, pemain yang lebih baru mendapatkan faktor bonus yang dihitung dengan memperkirakan lintasan kesulitan mendominasi dari waktu ke waktu (penurunan perbedaan peringkat antara 30 pemain top dari waktu ke waktu). Selanjutnya, Anda akan memvalidasi analisis ini dengan membandingkan persentase pemain dari komputer catur yang menghitung kesalahan yang dibuat lawan mereka dengan kesalahan mereka sendiri. Jika ini membatalkan hal di atas, maka Anda perlu mengulangi sesuai dengan analisis pemeriksaan kesalahan komputer jika itu menunjukkan ada kecenderungan pemain top yang lebih baru untuk bermain lebih akurat bahkan setelah faktor dominasi saya dipertimbangkan.
Dugaan saya berdasarkan pengamatan saya adalah bahwa Kasparov akan melakukannya dengan sangat baik. Tapi itu hanya dugaan.
sumber