Bagaimana Alpha Zero "lebih manusiawi"?

35

Saya punya pertanyaan yang mungkin naif tentang AlphaZero. Saya telah melihatnya digambarkan sebagai bermain dengan gaya "lebih manusiawi" daripada komputer lain, tetapi apa pun yang dilakukannya, ia mendapatkan sekitar 100 poin ELO dengan melakukannya. Kasparov, dan banyak lainnya, telah mengklaim bahwa manusia yang kuat dalam kolaborasi dengan komputer akan mengalahkan komputer yang kuat (mungkin sekitar 100 ELO ??). Jadi pertanyaan yang jelas adalah, bagaimana AlphaZero akan dibandingkan dengan kombinasi "centaur"?

Setelah hanya melihat beberapa permainan, yang saya perhatikan adalah bahwa kebanyakan komputer memainkan permainan terbuka lebar yang memaksimalkan mobilitas mereka sendiri, tetapi AlphaZero tampaknya sangat peduli untuk membatasi mobilitas lawan. Dalam pemain manusia saya akan menggambarkan ini sebagai masalah gaya, tidak lebih atau kurang manusiawi.

engines stockfish elo alphazero Philip Roe
sumber

4

Untuk apa nilainya, klaim dari Kasparov sangat tanggal. Manusia dan komputer dalam kolaborasi ("catur canggih" atau "catur centaur") tidak dapat lagi mengungguli komputer sendiri - komputer terlalu bagus - Stockfish 8 berperingkat di sekitar ~ 3400 IIRC, dibandingkan dengan ~ 2825 untuk Magnus Carlsen .

Stephen Touset

8

@StephenTouset Hanya hati-hati untuk berhati-hati dengan peringkat Elo untuk mesin. Yang paling sering saya lihat adalah dari perbandingan engine vs engine yang belum distandarisasi menjadi manusia sungguhan. Kutipan Wikipedia yang relevan : "Peringkat ini, [...] tidak memiliki hubungan langsung dengan peringkat FIDE Elo atau peringkat federasi catur pemain manusia lainnya. Kecuali untuk beberapa permainan manusia versus mesin yang telah diselenggarakan SSDF bertahun-tahun yang lalu (yang jauh dari level hari ini), tidak ada kalibrasi antara daftar peringkat ini dan kumpulan pemain. "

mbrig

1

Saya pikir manusia bisa tetapi tidak dalam kontrol waktu standar. Game korespondensi yang panjang harusnya oke.

SmallChess

4

ugh, AlphaZero adalah produk Google. Jadi tidak heran Anda akan mendengar lebih banyak propaganda tentang hal itu daripada produk perusahaan lain. Saya kira mereka memiliki kesepakatan yang lebih baik dengan penulis dan penerbit. Ambillah dengan tumpukan garam, seperti apa pun tentang Waymo.

coderworks

33

Halaman 5 di koran memiliki jawaban Anda:

... AlphaZero mengkompensasi jumlah evaluasi yang lebih rendah dengan menggunakan jaringan sarafnya yang dalam dengan biaya jauh lebih selektif pada variasi yang paling menjanjikan - bisa dibilang pendekatan yang lebih "mirip manusia" untuk catur ...

"selektif" adalah kata kuncinya. Apa artinya? Mari kita gunakan posisi berikut ini sebagai contoh kita:

https://chess24.com/en/read/news/london-classic-5-caruana-shows-how-it-s-done

Ini adalah pertandingan terakhir yang dimenangkan oleh Caruana di London Chess Classic 2017 Uskup Putih diserang, dan Anda tahu Anda harus memindahkannya. Tapi dimana?

Kemungkinan (tidak kehilangan bagian):

Bh4
Be3
Bd2
Bc1

Apa yang dipikirkan Caruana?

Saya merasa bahwa saya akan kehilangan pada titik tertentu, tetapi ketika saya melihat, 25. BC1 Tiba-tiba saya mulai sedikit lebih optimis tentang peluang saya. Saya menyadari posisi saya buruk, tetapi setidaknya saya punya rencana dan itu yang saya butuhkan untuk kepercayaan diri pada posisi ini. Ketika saya melihat b3 ini, posisi c4 bermata dua dan saya memiliki beberapa peluang.

Ini adalah pemikiran manusia , dan "langkah manusia". Caruana tidak menganggap Bh4, Be3 dan Bd2 karena mereka "terlihat" buruk. Dia hanya fokus dan hanya pada langkah Bc1.

Manusia bermain catur dengan sangat selektif , kita membuang gerakan yang tidak masuk akal karena kita tidak punya waktu untuk memeriksa semua kemungkinan secara setara.

Kami membuang Bh4 karena melepaskan ketegangan pada pion h6
Kami membuang Be3 karena memblokir dua benteng putih di peringkat ketiga
Kami membuang Bd2 karena itu memblokir ratu putih ke sisi raja

Itulah yang coba diklaim AlphaZero di koran. Mereka mengklaim algoritme mereka, meskipun lebih lambat dari Stockfish, mampu memilih gerakan yang lebih baik daripada Stockfish dalam pencarian. Sementara Stockfish lebih cepat, ia membuang-buang waktu untuk pergerakan yang buruk. AlphaZero lebih lambat, tetapi lebih tepat (seperti apa yang dilakukan Caruana).

Misalnya, AlphaZero mungkin menghabiskan 80% sumber daya untuk BC1, dan 20% untuk semua langkah uskup lainnya. Stockfish mungkin memberi 25% untuk setiap gerakan (Bh4, Be3, Bd2, Bc1).

Catur kecil
sumber

1

Jadi, pada dasarnya, gaya bermain tidak selalu lebih manusiawi, tetapi pendekatan untuk menemukan apa langkah selanjutnya untuk bermain adalah. Setidaknya sesuai dengan tulisan. Juga, saya tidak dapat mengeditnya, tetapi kutipan Caruana Anda memiliki kesalahan ketik yang cukup besar: "Ketika saya melihat b3, c4" seharusnya "Ketika saya melihat b3, c4"

Arthur

@Arthur Menurut kertas (dan hanya kertas), gaya bermain belum tentu lebih manusiawi. Saya tidak mengatakan TIDAK, tetapi tidak ada di koran yang mengatakan itu.

SmallChess

Algoritme Monte Carlo memiliki parameter untuk mengontrol eksplorasi x exploit, sehingga bergerak yang tidak pernah dipertimbangkan alfa-beta (karena waktu), alfa nol tidak.

Fernando

@Fernando Bisakah Anda menjelaskan apa yang Anda tanggapi? Saya berjuang untuk memahami intinya. Saya juga bingung dengan 'tidak pernah mempertimbangkan karena waktu'. Pencarian alfa-beta mengabaikan cabang yang jelas-jelas lebih buruk daripada beberapa cabang lain yang sudah dieksplorasi. Saya tidak melihat apa hubungannya dengan waktu.

IA Petr Harasimovic

Pada dasarnya, jika sebuah garis adalah +0.32 dan yang lainnya adalah +0.13, AlphaZero akan menghabiskan waktu untuk yang pertama.

Jossie Calderon

16

Kebanyakan mesin yang kuat menekankan tampak sangat dalam, dengan mengorbankan memiliki fungsi evaluasi yang dangkal. Dalam surat kabar AlphaZero, mereka mengatakan bahwa Stockfish melihat 70 juta posisi per detik.

Grandmaster manusia memang melihat sangat sedikit posisi dibandingkan dengan mesin, tetapi mereka memiliki perasaan yang lebih baik yang lebih baik dalam posisi tertentu.

AlphaZero hanya melihat 80.000 posisi per detik, sehingga ia menghabiskan lebih banyak waktu dalam fungsi evaluasinya.

Itulah arti yang mereka maksudkan "lebih seperti manusia", tidak lebih.

RemcoGerlich
sumber

11

AlphaZero tampaknya sudah bermain seperti GM "centaur" -> correspodence biasa dengan bantuan mesin.

Sebagai seorang FM saya akan lebih menikmati bermain AlphaZero vs mesin biasa.

Salah satu perbandingan akan dimainkan seperti Karpov akan dengan taktik yang sempurna. (Game 9 AlphaZero memainkan lagu untuk 15 gerakan yang sangat mirip Tal).

Bukan hanya gaya, AlphaZero memberi kesan memahami posisi lebih baik dari Stockfish.

AlphaZero juga tidak menderita Horizon Effect yang diderita SEMUA mesin catur hingga sekarang. Berkali-kali ia dapat dengan benar mengevaluasi posisi yang lebih banyak bergerak ke bawah daripada Stockfish.

Ini sebuah contoh:

AlphaZero - Stockfish, Alphazero vs Stockfish: AlphaZero - Stockfish, 2017-12-05, 1-0

1. d4 e6 2. e4 d5 3. Nc3 Nf6 4. e5 Nfd7 5. f4 c5 6. Nf3 cxd4 7. Nb5 Bb4 + 8. Bd2 Bc5 9. b4 Be7 10. Nbxd4 Nc6 11. c3 a5 12. b5 Nxd4 13. cxd4 Nb6 14. a4 Nc4 15. Bd3 Nxd2 16. Kxd2 Bd7 17. Ke3 b6 18. g4 h5 19. Qg1 hxg4 20. Qxg4 Bf8 21. h4 Qe7 22. Rhc1 g6 23. Rc2 Kd8 24. Rac1 Qe8 25. RC7 RC8 26. Rxc8 + Bxc8 27. RC6 BB7 28. RC2 Kd7 29. NG5 Be7 30. Bxg6 Bxg5 31. Qxg5 fxg6 32. f5 RG8 33. Qh6 Qf7 34. f6 Kd8 35. Kd2 Kd7 36. RC1 Kd8 37. Qe3 Qf8 38. Qc3 Qb4 39. Qxb4 axb4 40. Rg1 b3 41. Kc3 Bc8 42. Kxb3 Bd7 43. Kb4 Be8 44. Ra1 Kc7 45. a5 Bd7 46. axb6 + Kxb6 47. Ra6 + Kb7 48. Kc5 Rd8 49. Ra2 Rc8 + 50. Kd6 Be8 51. Ke7 g5 52. hxg5 1-0

| <Mulai << Balik Balik Berikutnya >> Akhir> |

AlphaZero memainkan raja ke pusat 16. Kxd2! di tengah permainan dengan benar menilai bahwa Black tidak akan dapat mengambil keuntungan darinya.

Itu dapat dengan benar mengevaluasi pengorbanan sepotong 30. Bxg6! sementara mesin biasa tidak dapat melihat bahwa mereka hilang karena sejumlah gerakan.

f5 juga cukup bagus.

Ada contoh lain seperti pertukaran Pengorbanan di Game 3.

Sint
sumber

8

Sangat mudah untuk melompat pada kereta musik mengatakan bermain Alpha-Zero adalah 'lebih' manusia daripada program catur komputer sebelumnya seperti melompat pada kereta yang berlawanan dan mengatakan bermain Alpha-Zero sepenuhnya 'asing'. Tidak jelas bahwa permainan Alpha-zero adalah 'lebih manusiawi' terutama mengingat kecenderungan manusia kita terhadap antropomorfisme.

Catur sebagai Perjuangan Pikiran (manusia)

Tetapi dalam catur apakah kecenderungan ini benar? Magnus Carlsen pernah berbicara tentang bagaimana komputer 'tradisional' secara umum tidak memiliki kreativitas manusia yang mengatakan:

"Catur adalah semua tentang perjuangan antara pikiran manusia. Itulah yang membuatnya menarik. Catur komputer itu mekanis, kering, dan lembut. Gerakannya sangat kuat, tentu saja, tetapi tidak ada gaya. Jika Anda mencoba bermain melawan komputer catur , Anda tidak hanya akan kalah dengan kepastian yang sangat tinggi, tetapi Anda juga akan bosan dalam prosesnya.

Magnus Carlsen tidak melihat bukti gaya bermain manusia di komputer catur tradisional. Jadi mari kita periksa apakah pencapaian Alpha-Zero baru-baru ini telah membatalkan perspektif ini dan menggerakkan kita menuju sesuatu yang lebih mengingatkan kita pada diri sendiri.

Jika dengan 'seperti manusia' maksudmu bermain 'menunjukkan perilaku yang lebih cenderung menarik minat kita akan antropomorfisme' apakah gaya Alpha-zero tampak lebih manusiawi? Bagaimana kita benar-benar menguji manusia rabun subjektif ini suka memproyeksikan pada hal-hal non-manusia? Mari kita bertanya - apakah algoritme 'memilih secara lebih baik' atau menunjukkan 'pilihan kreatif yang lebih manusiawi' dalam gaya permainannya?

Pencipta algoritma menunjukkan bahwa tidak seperti Stockfish yang menggunakan algoritma pencarian Alpha-Beta, Alpha-Zero menggunakan algoritma pencarian pohon Monte-Carlo (MCTS) yang menerima sebagai input parameter tertimbang θ dibangun dari hasil sebelumnya ~ Halaman 3. Menguasai Catur dan Shogi oleh Self-Play dengan Algoritma Pembelajaran Penguatan Umum ).

Jadi algoritme tidak menunjukkan pilihan sama sekali. Ini sebenarnya terlibat dalam pencarian Monty-carlo acak tetapi probabilistik di mana jalur pencarian yang tersedia untuk itu semakin berprasangka oleh hasil sebelumnya. Apakah Alpha-zero memilih untuk mengoptimalkan gaya permainannya dengan cara ini atau apakah itu pilihan programmernya?

Apakah Alpha-zero selalu memiliki semua kemungkinan pergerakan yang tersedia untuk dipertimbangkan atau apakah beberapa gerakan diprediksi secara algoritmik sedemikian rupa sehingga meniru pengalaman yang dapat ditafsirkan oleh manusia secara antropomorfis?

Awalnya ia memiliki semua gerakan yang tersedia sehingga 'gayanya' sepenuhnya acak. Namun karena pencariannya semakin dan semakin dibatasi oleh keberhasilan atau kegagalan sebelumnya, gayanya sebenarnya berubah ke mode yang telah dibelenggu oleh programernya. Apakah ini 'lebih manusiawi'? Bandingkan ini dengan Magnus Carlesen yang terkadang akan memilih gerakan yang kurang optimal karena mereka lebih kreatif :

Magnus Carlsen: "Saya menghargai menciptakan sesuatu yang unik"

Catur sebagai Perjuangan Pikiran (alien)

Manusia dapat memilih kriteria yang menggerakkan gaya permainan mereka sendiri (misalnya saya sering memilih impuls dan kesalahan dalam gaya saya sendiri). Banyak yang melihat permainan Alpha-zero di catur dan pergi sebagai Alien . Nick Hynes, seorang mahasiswa pascasarjana di Laboratorium Ilmu Komputer dan Kecerdasan Buatan (CSAIL) mengamati:

“Apa yang kami lihat di sini adalah model yang bebas dari prasangka dan prasangka manusia: Ia dapat mempelajari apa pun yang ditentukannya optimal, yang mungkin memang lebih bernuansa konsepsi kita sendiri yang sama. Ini seperti peradaban alien yang menciptakan matematika sendiri yang memungkinkannya melakukan hal-hal seperti perjalanan waktu ... ”

Demikian juga GM Peter Heine Nielsen kepada Chess.com :

"Setelah membaca koran tetapi terutama melihat permainan yang saya pikir, yah, saya selalu bertanya-tanya bagaimana jadinya jika spesies unggul mendarat di bumi dan menunjukkan kepada kita bagaimana mereka bermain catur. Saya merasa sekarang saya tahu."

Tampaknya sebagian besar bereaksi terhadap gaya bermain Alpha-zero yang muncul sebagai 'permainan alien', dan bukan sebagai 'lebih manusiawi'.

Karena itu ada alasan untuk tidak setuju dengan jawaban di atas yang mengatakan 'ya'.

pengguna34445
sumber

3

Jawaban Anda cukup menyesatkan dan tidak akurat di beberapa tempat. Penggunaan MCTS bukanlah perbedaan krusial, ini bukan mengapa ia mengalahkan Stockfish. Mereka dapat menggunakan pencarian alpha-beta juga, mereka hanya merasa MCTS bekerja lebih baik untuk mereka. Elemen-elemen utama dari algoritma AlphaZero adalah jaringan saraf convolutional yang sangat dalam, pembelajaran penguatan (yaitu jaringan disetel oleh permainan sendiri), dan pencarian pohon (yang kebetulan adalah MCTS tetapi itu tidak perlu). Tidak ada buatan tangan di dalamnya sehingga mengatakan "gayanya sebenarnya berubah ke mode yang telah dibelenggu oleh programernya" adalah tidak benar.

IA Petr Harasimovic

"Catur adalah tentang perjuangan antara pikiran manusia. Itulah yang membuatnya menarik. Catur komputer itu mekanis, kering, dan lembut. Gerakannya sangat kuat, tentu saja, tetapi tidak ada gaya". Adakah yang melakukan eksperimen gaya tes Turing yang dilakukan dengan baik dengan sejumlah GM yang memainkan lawan anonim yang bisa berupa manusia atau komputer?

Jika Anda percaya maksud saya adalah bahwa MCTS adalah perbedaan penting (antara Alpha-zero dan Stockfish) - Anda kehilangan poin saya. Maksud saya adalah manusia, bukan algoritma yang memutuskan gaya bermain Alpha-zero, melainkan keputusan Alpha-zero. Maksud saya adalah bahwa pilihan yang sangat manusiawi ini tampaknya memberikan gaya permainan yang menurut para GM dan amatir sama-sama bukan manusia.

user34445

Dr Eval memeriksa - cs.stackexchange.com/questions/68249/…

user34445

1

@ user34445 Sebenarnya, saya pikir paragraf itu tidak ada gunanya sama sekali, saya hanya mencoba merasionalisasi itu. Manusia tidak memutuskan gaya bermain AlphaZero, mereka memutuskan gaya belajarnya. Mereka tentu tidak memaksakan pandangan mereka tentang cara bermain catur.

IA Petr Harasimovic

5

Ini adalah waktu yang sangat menarik untuk hidup.

Komputer catur mulai tahun 1970-an telah menggunakan algoritma pencarian berbasis minimax-tree menggunakan pemangkasan alpha-beta. Program-program ini menjadi lebih kuat dan lebih kuat baik karena kemajuan dalam kecepatan komputer dan paralelisme dan karena peningkatan fungsi eva heuristik yang digunakan untuk memangkas cabang dan memilih node daun. Tetapi orang-orang telah lama memperhatikan bagaimana bermain komputer yang materialistis dan membosankan, dan banyak orang (termasuk saya) berpikir bahwa tidak mungkin untuk menyandikan intuisi "manusia" ke dalam perangkat lunak.

Tapi apakah Anda sudah melihat game-game ini?

AlphaZero menunjukkan permainan yang sangat indah, termasuk beberapa contoh pengorbanan materi untuk keuntungan posisi jangka panjang. Ini mengingatkan pada beberapa game paling indah dari master manusia, tetapi dengan akurasi teknis yang tak tertandingi juga. Ini adalah contoh pertama yang saya lihat dalam hidup saya tentang sesuatu yang dihasilkan komputer dan juga memiliki kecantikan yang dalam .

Klaim Centaur:

Saya sudah mendengar Garry mengatakan ini berkali-kali, tetapi itu tidak benar. Atau setidaknya, itu tidak akan berlaku lagi dengan AlphaZero hadir.

Bayangkan ini: ada sepotong kantung yang memiliki 10.000 kelanjutan yang relevan, di mana 5.000 di antaranya murni taktis (namun sebagian besar tidak terkait satu sama lain) dan 5.000 lainnya sebagian besar bersifat posisional (namun sebagian besar tidak terkait). Bagaimana mungkin manusia menyaring semua variasi ini tanpa membuat kesalahan? Jika AlphaZero sekarang dapat melihat gerakan yang sangat kreatif ini, kontribusi apa yang dapat dilakukan manusia?

Perbatasan Terakhir:

Ada satu tempat tersisa di mana perhitungan kasar masih akan mengalahkan jaring saraf yang dalam: endgames. Tidak ada jumlah intuisi yang akan mengalahkan tablebase. Tetapi ujung yang membutuhkan tablebase (karena pohon pencarian tidak bisa cukup dalam untuk hanya menghitung langkah yang tepat) sangat jarang. Dan Anda bisa memasukkan tablebase ke AlphaZero, tetapi itu akan menghancurkan kemurnian mesin "otodidak", bukan?

Fixee
sumber

3

Karena manusia tidak memiliki kemampuan untuk mencari dalam, seperti program catur komputer tradisional (fritz, stockfish et al), mereka menciptakan 'prinsip strategis' atau aturan praktis (kontrol pusat, pengembangan, keselamatan raja) dan konsep atau trik yang dapat diterapkan dalam berbagai macam situasi dengan cara yang berbeda, seperti pengorbanan, benteng-benteng terhubung, pasangan uskup, ujung-ujung khusus misalnya bagaimana memojokkan raja dengan benteng dan bidak.

Saya pikir alpha zero telah secara mandiri menemukan kembali banyak konsep (persepsi dan konsep) dan juga telah belajar banyak konsep baru - karena pengetahuannya tidak diperlukan untuk dibangun di atas fungsi evaluasi manusia dan pencarian minmax yang kuat yang selalu mengasumsikan bahwa lawan adalah jenius.

Tentu saja, prinsip-prinsip seperti itu sendiri bertentangan dalam beberapa situasi, itulah sebabnya berbagai permainan pembukaan dan perangkap dipelajari dengan cermat - misalnya jangan mengembangkan ratu terlalu cepat.

Di sisi lain, manusia juga memperhatikan bahwa sekali Anda kehilangan satu bagian (tanpa pertukaran) Anda melemahkan kekuatan Anda sehingga mereka sangat berhati-hati untuk tidak kehilangan bagian tanpa kompensasi.

Saya pikir permainan Alphazero telah membebaskan catur komputer (dan catur manusia) dari rasa takut yang besar akan kehilangan materi kecil dan ketergantungan pada pembukaan buku dan nilai karya.

Permainan Alphazero menunjukkan hal-hal seperti 'prinsip strategis' seperti kontrol pusat, pengembangan, ruang, inisiatif jauh lebih penting jika lawan Anda ceroboh. Dengan kata lain, 'pengorbanan' bukan benar-benar pengorbanan tetapi menukar sepotong demi mendapatkan inisiatif, posisi, langkah terarah.

Alphago (bukan nol) mengandalkan evaluasi manusia, tetapi alphazero mengatur seluruh rantai evaluasi untuk 'pencarian atau simulasi' sebagai proses ujung ke ujung yang tunggal dan menghasilkan cara bermain yang sama sekali baru.

Jika Anda berpikir tentang hal itu, tuan-tuan hebat di masa lalu seperti Morphy, Fischer, Kasparov telah diberi tepuk tangan karena permainan -counter-intuitif-seperti ini di mana mereka tidak dibatasi oleh evaluasi tertulis-di-batu dengan memanfaatkan situasi khusus yang muncul. Saya pikir game alpha zero memiliki faktor 'wow' untuk itu.

Mengapa jaringan saraf. Sementara program komputer yang menggunakan representasi simbolis dan pencarian diskrit hanya dapat menggunakan cara berpikir 'satu', jaringan saraf dapat secara paralel memproses situasi dengan evaluasi alternatif yang bertentangan dan beralih ke tampilan yang lebih bernilai di lapisan selanjutnya.

Ravi Annaswamy
sumber

2

Lebih manusiawi dalam arti bahwa gerakan yang dimainkannya tampaknya bertepatan kurang lebih dengan pendekatan manusia: bermain untuk keuntungan jangka panjang, pengorbanan posisi, aktivitas sepotong-sepotong. Ada konvergensi yang nyata dengan pengetahuan catur manusia dan prinsip-prinsip strategis yang diterima yang disempurnakan selama berabad-abad (misalnya, "menemukan" banyak celah yang sama). Ini luar biasa mengingat fakta bahwa AlphaZero belum diunggulkan dengan pengetahuan catur buatan manusia.

Tetapi kesamaan berakhir di sini. AlphaZero membawanya ke tingkat berikutnya dan melakukannya dengan lebih baik, dan dengan cara yang belum pernah dipahami manusia. AlphaZero memiliki kemampuan "manusia super" untuk mengutip makalah ini: "AlphaZero mencapai tingkat permainan manusia super [...]" ( https://arxiv.org/pdf/1712.01815.pdf ). Selain itu tidak memiliki kelemahan yang melekat pada manusia: masalah konsentrasi, ketakutan, kelelahan, perasaan, intuisi, dll. Yang membatasi manusia. Dan otak silikonnya memungkinkan untuk kombinasi taktis di luar kemampuan manusia bila diperlukan.

AdamL
sumber

2

Lalu ada paradoks. Stockfish mendapat manfaat dari pengalaman manusia; Alphazero tidak. Tapi Alpha nol tampaknya lebih manusiawi. Berarti, mungkin, yang tidak kita lakukan, dengan generasi Stackfish, pekerjaan yang sangat baik untuk menyaring pikiran kita

Philip Roe

1

Saya ingin mengucapkan terima kasih kepada semua yang telah menanggapi pertanyaan ini, seringkali dengan kehalusan dan wawasan. Perbedaan utama dalam tanggapannya, menurut saya, adalah dalam penafsiran kata manusia.

AlphaZero tidak bermain catur manusia dalam arti kelalaian dan kesalahan perhitungan, tetapi proses "pemikiran" tampaknya sesuai, dalam bentuk yang tinggi, dengan bagaimana saya berpikir bahwa pemain paling kuat berpikir. Anda menyusun, cukup cepat, daftar "kandidat bergerak" yang ingin Anda mainkan, dan untuk pemain terkuat daftar ini luar biasa akurat, bahkan memainkan sesuatu seperti permainan yang masuk akal yang dapat dikenali dalam satu menit. Sisa waktu dihabiskan untuk bertanya, gerakan mana dari daftar itu yang benar-benar berfungsi? Petrosian mengatakan bahwa ia merasa paling sehat ketika gerakan yang akhirnya ia mainkan adalah yang pertama kali ia pikirkan. Kita semua tahu betapa memuaskannya ketika gerakan yang paling ingin kita mainkan ternyata bisa dimainkan secara taktik. Saya dapat berhubungan dengan algoritma AlphaZero jauh lebih mudah daripada yang saya bisa untuk pencarian AlphaBeta,

Apa yang tampaknya paling menarik adalah bagaimana mesin itu bisa, dengan permainan sendiri, untuk mengenali kandidat yang menjanjikan. Di situlah potensi terletak revolusi nyata. Saya bertanya-tanya apakah ini hanya mungkin untuk domain seperti catur dan pergi, di mana tujuannya dapat didefinisikan dengan jelas. Tapi saya merasa mengejutkan bahwa AlphaZero tampaknya menampilkan permainan yang bertujuan, tetapi Stockfish tidak tahu apa yang sedang terjadi.

Philip Roe
sumber

0

Cara saya memahami jaringan saraf, keunggulan nyata A0 adalah evaluasi superiornya terhadap posisi dewan. Evaluasi ini menggabungkan baik pengetahuan taktis jangka pendek (yang dalam arti berfungsi sebagai pengganda dari jumlah posisi yang diperiksa) dan evaluasi unggul nilai strategis.

Steinar Vatne
sumber

1

Selamat Datang di Catur SE! Bisakah Anda memberikan referensi untuk alasan mengapa Anda berpikir jaringan saraf bekerja seperti itu?

Pablo S. Ocal

0

Satu hal yang saya rasa seluruh diskusi telah terjawab adalah bahwa A0 dapat bermain catur, shogi dan pergi, semua sangat baik dan semua dari pelatihan diri. Ini jauh lebih manusiawi. Selain itu, dalam perjalanan itu telah mengungkapkan ide-ide yang sangat baru kepada para pemain top (seperti yang saya mengerti). Mesin lainnya sangat spesifik tugas, A0 tampaknya sebaliknya. Saya ingin melihatnya bermain catur960.

fidge
sumber

1

Saya tidak melihat bagaimana ini menjawab pertanyaan.

SmallChess

-2

Saya tidak berpikir ada sesuatu 'manusia' tentang Alpha. Itu hanya menggunakan perangkat keras yang jauh lebih kuat dan memainkan catur berkualitas tinggi. Langkah pembukaan yang baik yang ditemukannya (misalnya, ke sisi raja fianchetto dengan Bg2) sepenuhnya karena buku pembukaannya yang disimulasikan. Konsep yang mengesankan saya dan yang saya rumuskan dalam 'Rahasia Catur': http://davidsmerdon.com/?p=1970 , yang digunakan Alpha untuk pertama kalinya di antara mesin-mesin top, adalah rantai yang lebih panjang, misalnya d4 -E5-f6 rantai yang mengalahkan seluruh bagian dalam permainan pengorbanan Bg6, dan pembuat mundur pusat, seperti yang terlihat dalam permainan Pertahanan Perancis antara kedua mesin. Kedua konsep melibatkan pencarian ke kedalaman, dan mungkin di sini Alpha dibantu oleh perangkat kerasnya yang luar biasa. Kalau tidak, saya tidak melihat manusiawi tentang permainannya. Banyak permainan, diakui,

Lyudmil Tsvetkov
sumber

5

Kedua pernyataan Anda ini salah: 1) "Itu hanya menggunakan perangkat keras yang jauh lebih kuat" - Ya, itu menggunakan perangkat keras yang jauh lebih kuat daripada Stockfish tetapi ini bukan yang membuat perbedaan. Ini adalah perangkat lunak yang sangat berbeda yang membutuhkan perangkat keras yang kuat. 2) "Langkah pembukaan yang baik yang ditemukannya sepenuhnya karena buku pembukaannya yang disimulasikan." - Itu tidak menggunakan buku bukaan.

IA Petr Harasimovic

Justru inilah yang membuat perbedaan: perangkat keras Alpha secara eksponensial lebih besar. Setiap tester catur tahu penggandaan kecepatan meningkatkan kekuatan catur sekitar 70 elo atau lebih, tergantung pada perangkat lunaknya. Perbedaan antara 32 core dan 4TPU, 1000-2000 core, adalah 6 kali lipat atau lebih. Itu akan menghasilkan 420 Elos. Jadi, sebenarnya, ketika performanya 100 elo lebih kuat pada perangkat keras itu, pada kondisi yang sama Alpha sekitar 300 elo lebih lemah.

Lyudmil Tsvetkov

Ia menggunakan buku pembuka, tentu saja, apa pun yang mereka klaim. Alpha telah dilatih di game-game pemenang GM teratas. Itu jelas sangat jelas, jika seseorang melihat seleksi pembukaan Alpha: justru pembukaan yang direkomendasikan oleh teori modern dan tepatnya, di mana peluang menang adalah yang terbaik. Anda tidak fianchetto dengan Bg2 begitu saja.

Lyudmil Tsvetkov

3

@Lyudmil, Google telah mencapai sesuatu yang mencengangkan di Alpha Zero. Ia belajar sendiri langkah-langkah ini dengan bermain melawan dirinya sendiri hanya mengetahui aturan permainan! Menuduh tim Alpha Zero melakukan kecurangan menunjukkan bahwa Anda tidak memahami pencapaian atau misi mereka sama sekali - mereka mendorong batas-batas AI ke depan dan sebagai satu gerakan kecil di sepanjang jalan mengalahkan semua mesin catur dan bakat manusia yang ada dalam pekerjaan sore hari!

berlayar

1

@LyudmilTsvetkov Anda sepenuhnya salah. Alpha Zero (dan ini intinya) dilatih tanpa permainan manusia. Ini mengatakan kepada aturan dan kemudian diciptakan setiap aspek bermain dalam empat jam bermain dengan sendirinya tanpa setiap data di luar baru.

Maverick

Bagaimana Alpha Zero "lebih manusiawi"?

Jawaban:

Ini adalah waktu yang sangat menarik untuk hidup.