Saya punya pertanyaan yang mungkin naif tentang AlphaZero. Saya telah melihatnya digambarkan sebagai bermain dengan gaya "lebih manusiawi" daripada komputer lain, tetapi apa pun yang dilakukannya, ia mendapatkan sekitar 100 poin ELO dengan melakukannya. Kasparov, dan banyak lainnya, telah mengklaim bahwa manusia yang kuat dalam kolaborasi dengan komputer akan mengalahkan komputer yang kuat (mungkin sekitar 100 ELO ??). Jadi pertanyaan yang jelas adalah, bagaimana AlphaZero akan dibandingkan dengan kombinasi "centaur"?
Setelah hanya melihat beberapa permainan, yang saya perhatikan adalah bahwa kebanyakan komputer memainkan permainan terbuka lebar yang memaksimalkan mobilitas mereka sendiri, tetapi AlphaZero tampaknya sangat peduli untuk membatasi mobilitas lawan. Dalam pemain manusia saya akan menggambarkan ini sebagai masalah gaya, tidak lebih atau kurang manusiawi.
Jawaban:
Halaman 5 di koran memiliki jawaban Anda:
"selektif" adalah kata kuncinya. Apa artinya? Mari kita gunakan posisi berikut ini sebagai contoh kita:
Ini adalah pertandingan terakhir yang dimenangkan oleh Caruana di London Chess Classic 2017 Uskup Putih diserang, dan Anda tahu Anda harus memindahkannya. Tapi dimana?
Kemungkinan (tidak kehilangan bagian):
Apa yang dipikirkan Caruana?
Ini adalah pemikiran manusia , dan "langkah manusia". Caruana tidak menganggap Bh4, Be3 dan Bd2 karena mereka "terlihat" buruk. Dia hanya fokus dan hanya pada langkah Bc1.
Manusia bermain catur dengan sangat selektif , kita membuang gerakan yang tidak masuk akal karena kita tidak punya waktu untuk memeriksa semua kemungkinan secara setara.
Itulah yang coba diklaim AlphaZero di koran. Mereka mengklaim algoritme mereka, meskipun lebih lambat dari Stockfish, mampu memilih gerakan yang lebih baik daripada Stockfish dalam pencarian. Sementara Stockfish lebih cepat, ia membuang-buang waktu untuk pergerakan yang buruk. AlphaZero lebih lambat, tetapi lebih tepat (seperti apa yang dilakukan Caruana).
Misalnya, AlphaZero mungkin menghabiskan 80% sumber daya untuk BC1, dan 20% untuk semua langkah uskup lainnya. Stockfish mungkin memberi 25% untuk setiap gerakan (Bh4, Be3, Bd2, Bc1).
sumber
Kebanyakan mesin yang kuat menekankan tampak sangat dalam, dengan mengorbankan memiliki fungsi evaluasi yang dangkal. Dalam surat kabar AlphaZero, mereka mengatakan bahwa Stockfish melihat 70 juta posisi per detik.
Grandmaster manusia memang melihat sangat sedikit posisi dibandingkan dengan mesin, tetapi mereka memiliki perasaan yang lebih baik yang lebih baik dalam posisi tertentu.
AlphaZero hanya melihat 80.000 posisi per detik, sehingga ia menghabiskan lebih banyak waktu dalam fungsi evaluasinya.
Itulah arti yang mereka maksudkan "lebih seperti manusia", tidak lebih.
sumber
AlphaZero tampaknya sudah bermain seperti GM "centaur" -> correspodence biasa dengan bantuan mesin.
Sebagai seorang FM saya akan lebih menikmati bermain AlphaZero vs mesin biasa.
Salah satu perbandingan akan dimainkan seperti Karpov akan dengan taktik yang sempurna. (Game 9 AlphaZero memainkan lagu untuk 15 gerakan yang sangat mirip Tal).
Bukan hanya gaya, AlphaZero memberi kesan memahami posisi lebih baik dari Stockfish.
AlphaZero juga tidak menderita Horizon Effect yang diderita SEMUA mesin catur hingga sekarang. Berkali-kali ia dapat dengan benar mengevaluasi posisi yang lebih banyak bergerak ke bawah daripada Stockfish.
Ini sebuah contoh:
AlphaZero memainkan raja ke pusat 16. Kxd2! di tengah permainan dengan benar menilai bahwa Black tidak akan dapat mengambil keuntungan darinya.
Itu dapat dengan benar mengevaluasi pengorbanan sepotong 30. Bxg6! sementara mesin biasa tidak dapat melihat bahwa mereka hilang karena sejumlah gerakan.
Ada contoh lain seperti pertukaran Pengorbanan di Game 3.
sumber
Sangat mudah untuk melompat pada kereta musik mengatakan bermain Alpha-Zero adalah 'lebih' manusia daripada program catur komputer sebelumnya seperti melompat pada kereta yang berlawanan dan mengatakan bermain Alpha-Zero sepenuhnya 'asing'. Tidak jelas bahwa permainan Alpha-zero adalah 'lebih manusiawi' terutama mengingat kecenderungan manusia kita terhadap antropomorfisme.
Catur sebagai Perjuangan Pikiran (manusia)
Tetapi dalam catur apakah kecenderungan ini benar? Magnus Carlsen pernah berbicara tentang bagaimana komputer 'tradisional' secara umum tidak memiliki kreativitas manusia yang mengatakan:
Magnus Carlsen tidak melihat bukti gaya bermain manusia di komputer catur tradisional. Jadi mari kita periksa apakah pencapaian Alpha-Zero baru-baru ini telah membatalkan perspektif ini dan menggerakkan kita menuju sesuatu yang lebih mengingatkan kita pada diri sendiri.
Pencipta algoritma menunjukkan bahwa tidak seperti Stockfish yang menggunakan algoritma pencarian Alpha-Beta, Alpha-Zero menggunakan algoritma pencarian pohon Monte-Carlo (MCTS) yang menerima sebagai input parameter tertimbang θ dibangun dari hasil sebelumnya ~ Halaman 3. Menguasai Catur dan Shogi oleh Self-Play dengan Algoritma Pembelajaran Penguatan Umum ).
Jadi algoritme tidak menunjukkan pilihan sama sekali. Ini sebenarnya terlibat dalam pencarian Monty-carlo acak tetapi probabilistik di mana jalur pencarian yang tersedia untuk itu semakin berprasangka oleh hasil sebelumnya. Apakah Alpha-zero memilih untuk mengoptimalkan gaya permainannya dengan cara ini atau apakah itu pilihan programmernya?
Awalnya ia memiliki semua gerakan yang tersedia sehingga 'gayanya' sepenuhnya acak. Namun karena pencariannya semakin dan semakin dibatasi oleh keberhasilan atau kegagalan sebelumnya, gayanya sebenarnya berubah ke mode yang telah dibelenggu oleh programernya. Apakah ini 'lebih manusiawi'? Bandingkan ini dengan Magnus Carlesen yang terkadang akan memilih gerakan yang kurang optimal karena mereka lebih kreatif :
Catur sebagai Perjuangan Pikiran (alien)
Manusia dapat memilih kriteria yang menggerakkan gaya permainan mereka sendiri (misalnya saya sering memilih impuls dan kesalahan dalam gaya saya sendiri). Banyak yang melihat permainan Alpha-zero di catur dan pergi sebagai Alien . Nick Hynes, seorang mahasiswa pascasarjana di Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) mengamati:
Demikian juga GM Peter Heine Nielsen kepada Chess.com :
Tampaknya sebagian besar bereaksi terhadap gaya bermain Alpha-zero yang muncul sebagai 'permainan alien', dan bukan sebagai 'lebih manusiawi'.
sumber
Ini adalah waktu yang sangat menarik untuk hidup.
Komputer catur mulai tahun 1970-an telah menggunakan algoritma pencarian berbasis minimax-tree menggunakan pemangkasan alpha-beta. Program-program ini menjadi lebih kuat dan lebih kuat baik karena kemajuan dalam kecepatan komputer dan paralelisme dan karena peningkatan fungsi eva heuristik yang digunakan untuk memangkas cabang dan memilih node daun. Tetapi orang-orang telah lama memperhatikan bagaimana bermain komputer yang materialistis dan membosankan, dan banyak orang (termasuk saya) berpikir bahwa tidak mungkin untuk menyandikan intuisi "manusia" ke dalam perangkat lunak.
Tapi apakah Anda sudah melihat game-game ini?
AlphaZero menunjukkan permainan yang sangat indah, termasuk beberapa contoh pengorbanan materi untuk keuntungan posisi jangka panjang. Ini mengingatkan pada beberapa game paling indah dari master manusia, tetapi dengan akurasi teknis yang tak tertandingi juga. Ini adalah contoh pertama yang saya lihat dalam hidup saya tentang sesuatu yang dihasilkan komputer dan juga memiliki kecantikan yang dalam .
Klaim Centaur:
Saya sudah mendengar Garry mengatakan ini berkali-kali, tetapi itu tidak benar. Atau setidaknya, itu tidak akan berlaku lagi dengan AlphaZero hadir.
Bayangkan ini: ada sepotong kantung yang memiliki 10.000 kelanjutan yang relevan, di mana 5.000 di antaranya murni taktis (namun sebagian besar tidak terkait satu sama lain) dan 5.000 lainnya sebagian besar bersifat posisional (namun sebagian besar tidak terkait). Bagaimana mungkin manusia menyaring semua variasi ini tanpa membuat kesalahan? Jika AlphaZero sekarang dapat melihat gerakan yang sangat kreatif ini, kontribusi apa yang dapat dilakukan manusia?
Perbatasan Terakhir:
Ada satu tempat tersisa di mana perhitungan kasar masih akan mengalahkan jaring saraf yang dalam: endgames. Tidak ada jumlah intuisi yang akan mengalahkan tablebase. Tetapi ujung yang membutuhkan tablebase (karena pohon pencarian tidak bisa cukup dalam untuk hanya menghitung langkah yang tepat) sangat jarang. Dan Anda bisa memasukkan tablebase ke AlphaZero, tetapi itu akan menghancurkan kemurnian mesin "otodidak", bukan?
sumber
Karena manusia tidak memiliki kemampuan untuk mencari dalam, seperti program catur komputer tradisional (fritz, stockfish et al), mereka menciptakan 'prinsip strategis' atau aturan praktis (kontrol pusat, pengembangan, keselamatan raja) dan konsep atau trik yang dapat diterapkan dalam berbagai macam situasi dengan cara yang berbeda, seperti pengorbanan, benteng-benteng terhubung, pasangan uskup, ujung-ujung khusus misalnya bagaimana memojokkan raja dengan benteng dan bidak.
Saya pikir alpha zero telah secara mandiri menemukan kembali banyak konsep (persepsi dan konsep) dan juga telah belajar banyak konsep baru - karena pengetahuannya tidak diperlukan untuk dibangun di atas fungsi evaluasi manusia dan pencarian minmax yang kuat yang selalu mengasumsikan bahwa lawan adalah jenius.
Tentu saja, prinsip-prinsip seperti itu sendiri bertentangan dalam beberapa situasi, itulah sebabnya berbagai permainan pembukaan dan perangkap dipelajari dengan cermat - misalnya jangan mengembangkan ratu terlalu cepat.
Di sisi lain, manusia juga memperhatikan bahwa sekali Anda kehilangan satu bagian (tanpa pertukaran) Anda melemahkan kekuatan Anda sehingga mereka sangat berhati-hati untuk tidak kehilangan bagian tanpa kompensasi.
Saya pikir permainan Alphazero telah membebaskan catur komputer (dan catur manusia) dari rasa takut yang besar akan kehilangan materi kecil dan ketergantungan pada pembukaan buku dan nilai karya.
Permainan Alphazero menunjukkan hal-hal seperti 'prinsip strategis' seperti kontrol pusat, pengembangan, ruang, inisiatif jauh lebih penting jika lawan Anda ceroboh. Dengan kata lain, 'pengorbanan' bukan benar-benar pengorbanan tetapi menukar sepotong demi mendapatkan inisiatif, posisi, langkah terarah.
Alphago (bukan nol) mengandalkan evaluasi manusia, tetapi alphazero mengatur seluruh rantai evaluasi untuk 'pencarian atau simulasi' sebagai proses ujung ke ujung yang tunggal dan menghasilkan cara bermain yang sama sekali baru.
Jika Anda berpikir tentang hal itu, tuan-tuan hebat di masa lalu seperti Morphy, Fischer, Kasparov telah diberi tepuk tangan karena permainan -counter-intuitif-seperti ini di mana mereka tidak dibatasi oleh evaluasi tertulis-di-batu dengan memanfaatkan situasi khusus yang muncul. Saya pikir game alpha zero memiliki faktor 'wow' untuk itu.
Mengapa jaringan saraf. Sementara program komputer yang menggunakan representasi simbolis dan pencarian diskrit hanya dapat menggunakan cara berpikir 'satu', jaringan saraf dapat secara paralel memproses situasi dengan evaluasi alternatif yang bertentangan dan beralih ke tampilan yang lebih bernilai di lapisan selanjutnya.
sumber
Lebih manusiawi dalam arti bahwa gerakan yang dimainkannya tampaknya bertepatan kurang lebih dengan pendekatan manusia: bermain untuk keuntungan jangka panjang, pengorbanan posisi, aktivitas sepotong-sepotong. Ada konvergensi yang nyata dengan pengetahuan catur manusia dan prinsip-prinsip strategis yang diterima yang disempurnakan selama berabad-abad (misalnya, "menemukan" banyak celah yang sama). Ini luar biasa mengingat fakta bahwa AlphaZero belum diunggulkan dengan pengetahuan catur buatan manusia.
Tetapi kesamaan berakhir di sini. AlphaZero membawanya ke tingkat berikutnya dan melakukannya dengan lebih baik, dan dengan cara yang belum pernah dipahami manusia. AlphaZero memiliki kemampuan "manusia super" untuk mengutip makalah ini: "AlphaZero mencapai tingkat permainan manusia super [...]" ( https://arxiv.org/pdf/1712.01815.pdf ). Selain itu tidak memiliki kelemahan yang melekat pada manusia: masalah konsentrasi, ketakutan, kelelahan, perasaan, intuisi, dll. Yang membatasi manusia. Dan otak silikonnya memungkinkan untuk kombinasi taktis di luar kemampuan manusia bila diperlukan.
sumber
Saya ingin mengucapkan terima kasih kepada semua yang telah menanggapi pertanyaan ini, seringkali dengan kehalusan dan wawasan. Perbedaan utama dalam tanggapannya, menurut saya, adalah dalam penafsiran kata manusia.
AlphaZero tidak bermain catur manusia dalam arti kelalaian dan kesalahan perhitungan, tetapi proses "pemikiran" tampaknya sesuai, dalam bentuk yang tinggi, dengan bagaimana saya berpikir bahwa pemain paling kuat berpikir. Anda menyusun, cukup cepat, daftar "kandidat bergerak" yang ingin Anda mainkan, dan untuk pemain terkuat daftar ini luar biasa akurat, bahkan memainkan sesuatu seperti permainan yang masuk akal yang dapat dikenali dalam satu menit. Sisa waktu dihabiskan untuk bertanya, gerakan mana dari daftar itu yang benar-benar berfungsi? Petrosian mengatakan bahwa ia merasa paling sehat ketika gerakan yang akhirnya ia mainkan adalah yang pertama kali ia pikirkan. Kita semua tahu betapa memuaskannya ketika gerakan yang paling ingin kita mainkan ternyata bisa dimainkan secara taktik. Saya dapat berhubungan dengan algoritma AlphaZero jauh lebih mudah daripada yang saya bisa untuk pencarian AlphaBeta,
Apa yang tampaknya paling menarik adalah bagaimana mesin itu bisa, dengan permainan sendiri, untuk mengenali kandidat yang menjanjikan. Di situlah potensi terletak revolusi nyata. Saya bertanya-tanya apakah ini hanya mungkin untuk domain seperti catur dan pergi, di mana tujuannya dapat didefinisikan dengan jelas. Tapi saya merasa mengejutkan bahwa AlphaZero tampaknya menampilkan permainan yang bertujuan, tetapi Stockfish tidak tahu apa yang sedang terjadi.
sumber
Cara saya memahami jaringan saraf, keunggulan nyata A0 adalah evaluasi superiornya terhadap posisi dewan. Evaluasi ini menggabungkan baik pengetahuan taktis jangka pendek (yang dalam arti berfungsi sebagai pengganda dari jumlah posisi yang diperiksa) dan evaluasi unggul nilai strategis.
sumber
Satu hal yang saya rasa seluruh diskusi telah terjawab adalah bahwa A0 dapat bermain catur, shogi dan pergi, semua sangat baik dan semua dari pelatihan diri. Ini jauh lebih manusiawi. Selain itu, dalam perjalanan itu telah mengungkapkan ide-ide yang sangat baru kepada para pemain top (seperti yang saya mengerti). Mesin lainnya sangat spesifik tugas, A0 tampaknya sebaliknya. Saya ingin melihatnya bermain catur960.
sumber
Saya tidak berpikir ada sesuatu 'manusia' tentang Alpha. Itu hanya menggunakan perangkat keras yang jauh lebih kuat dan memainkan catur berkualitas tinggi. Langkah pembukaan yang baik yang ditemukannya (misalnya, ke sisi raja fianchetto dengan Bg2) sepenuhnya karena buku pembukaannya yang disimulasikan. Konsep yang mengesankan saya dan yang saya rumuskan dalam 'Rahasia Catur': http://davidsmerdon.com/?p=1970 , yang digunakan Alpha untuk pertama kalinya di antara mesin-mesin top, adalah rantai yang lebih panjang, misalnya d4 -E5-f6 rantai yang mengalahkan seluruh bagian dalam permainan pengorbanan Bg6, dan pembuat mundur pusat, seperti yang terlihat dalam permainan Pertahanan Perancis antara kedua mesin. Kedua konsep melibatkan pencarian ke kedalaman, dan mungkin di sini Alpha dibantu oleh perangkat kerasnya yang luar biasa. Kalau tidak, saya tidak melihat manusiawi tentang permainannya. Banyak permainan, diakui,
sumber