AlphaGo (dan program game lainnya menggunakan penguatan-pembelajaran) tanpa database manusia

13

Saya bukan spesialis masalah ini, dan pertanyaan saya mungkin sangat naif. Ini berasal dari esai untuk memahami kekuatan dan keterbatasan pembelajaran penguatan seperti yang digunakan dalam program AlphaGo.

Program AlphaGo telah dibangun menggunakan, antara lain (penjelajahan Monte-Carlo pohon, dll.), Jaringan saraf yang dilatih dari database besar game go yang dimainkan manusia, dan yang kemudian diperkuat dengan membiarkan versi play dari Program terhadap dirinya sendiri berkali-kali.

Sekarang saya bertanya-tanya apa yang akan terjadi adalah kami mencoba membangun program seperti itu tanpa basis data manusia, yaitu mulai dengan program dasar Go just mengetahui aturan dan beberapa metode untuk mengeksplorasi pohon, dan membiarkan bermain melawan dirinya sendiri untuk meningkatkan jaringan sarafnya. Akankah kita, setelah banyak pertandingan melawan dirinya sendiri, tiba di sebuah program yang mampu bersaing dengan atau mengalahkan pemain manusia terbaik? Dan jika demikian, berapa banyak game (dalam urutan besarnya) yang dibutuhkan untuk itu? Atau sebaliknya, akankah program seperti itu bertemu dengan pemain yang jauh lebih lemah?

Saya berasumsi bahwa percobaan belum dilakukan, karena AlphaGo sangat baru. Tetapi jawabannya mungkin jelas bagi seorang spesialis. Kalau tidak, tebakan yang berpendidikan akan menarik minat saya.

Orang juga dapat mengajukan pertanyaan yang sama untuk game "sederhana". Jika kita menggunakan teknik pembelajaran penguatan yang kira-kira sama dengan yang digunakan untuk AlphaGo, tetapi tanpa menggunakan basis data manusia, untuk program Catur, akankah kita akhirnya mendapatkan program yang mampu mengalahkan manusia terbaik? Dan jika demikian, seberapa cepat? Apakah ini sudah dicoba? Atau jika bukan karena Catur, bagaimana dengan Catur, atau bahkan permainan yang lebih sederhana?

Terima kasih banyak.

Joël
sumber

Jawaban:

10

Saya bukan ahli tetapi sepertinya AlphaGo Zero menjawab pertanyaan Anda. https://deepmind.com/blog/alphago-zero-learning-scratch/

Versi sebelumnya dari AlphaGo awalnya dilatih pada ribuan game amatir dan profesional manusia untuk mempelajari cara bermain Go. AlphaGo Zero melewatkan langkah ini dan belajar bermain hanya dengan bermain game melawan dirinya sendiri, mulai dari bermain sepenuhnya acak. Dengan melakukan itu, ia dengan cepat melampaui tingkat permainan manusia dan mengalahkan versi AlphaGo yang sebelumnya telah dikalahkan oleh 100 game menjadi 0.

Gabe
sumber
Apakah ini lebih baru?
kosmos
1
Ini diterbitkan pada 18 Oktober 2017.
ncasas
Akan menarik untuk mengetahui hasil terhadap manusia. Karena salah satu alasan untuk database manusia pra-terlatih adalah untuk memperbaiki algoritma MCTS terhadap lawan manusia . AlphaGo Asli dioptimalkan untuk bermain vs manusia, bukan ML lainnya. Karena itu, lebih sulit untuk mengatakan apakah AlphaGo Zero benar-benar "lebih baik" daripada AlphaGo asli, atau hanya mendominasi dalam arti teori permainan - misalnya AlphaGo Zero mengalahkan AlphaGo mengalahkan Lee Gool mengalahkan AlphaGo Zero. . .
Neil Slater
4
Neil, Ya ini akan menarik. Tapi saya tidak akan bertaruh satu sen pun dari peluang manusia melawan Alpha Go zero.
Joël
1
Q
9

Pertanyaan yang sama telah diajukan kepada penulis makalah AlphaGo dan jawabannya adalah bahwa kita tidak tahu apa yang akan terjadi jika AlphaGo akan belajar dari awal (mereka belum mengujinya).

Namun, mengingat kompleksitas permainan, itu akan menjadi tugas yang sulit untuk melatih suatu algoritma dari awal tanpa pengetahuan sebelumnya. Dengan demikian, masuk akal pada mulanya untuk mulai membangun sistem seperti itu dengan meningkatkannya ke tingkat Master menggunakan pengetahuan yang diperoleh manusia.

Perlu dicatat bahwa, meskipun gerakan manusia bias pemilihan tindakan di node pohon (negara), ini sebelumnya memiliki faktor pembusukan. Ini berarti bahwa peningkatan kunjungan ke keadaan tertentu, mengurangi kekuatan sebelum mendorong algoritma untuk mengeksplorasi.

Level Mastery of AlphaGo saat ini tidak diketahui seberapa dekat atau seberapa jauh itu dengan cara bermain manusia (dalam turnamen itu ada satu gerakan yang manusia nyaris memiliki kemungkinan nol untuk tampil! - tetapi sama-sama melakukan beberapa gerakan yang sangat buruk juga) . Mungkin tetap semua pertanyaan ini harus dijawab dengan benar-benar menerapkan algoritma pengujian yang sesuai.

Saya berhutang untuk mengedit jawaban saya karena makalah DeepMind terbaru menjawab pertanyaan Anda. Ada banyak kemajuan yang muncul dari seluruh pengalaman sebelumnya dengan versi pertama dari AlphaGo dan sangat layak untuk membacanya.

Konstantinos
sumber
Constantinos
8

Sejauh yang saya mengerti algoritma AlphaGo, ini didasarkan pada kerangka kerja penguatan sederhana (RL), menggunakan pencarian pohon Monte-Carlo untuk memilih tindakan terbaik. Di atas itu, negara dan tindakan yang dicakup oleh algoritma RL tidak hanya seluruh konfigurasi yang mungkin dari permainan (Go memiliki kompleksitas yang sangat besar) tetapi didasarkan pada jaringan kebijakan dan jaringan nilai, dipelajari dari permainan nyata dan kemudian ditingkatkan dengan memainkan game AlphaGo vs AlphaGo.

Maka kita mungkin bertanya-tanya apakah pelatihan dari game nyata hanyalah jalan pintas untuk menghemat waktu atau opsi yang diperlukan untuk mendapatkan efisiensi seperti itu. Saya kira tidak ada yang benar-benar tahu jawabannya, tetapi kita dapat menyatakan beberapa asumsi. Pertama, kemampuan manusia untuk mempromosikan gerakan yang baik adalah karena kecerdasan yang jauh lebih kompleks daripada jaringan saraf sederhana. Untuk permainan papan, itu adalah campuran antara memori, pengalaman, logika dan perasaan. Dalam arah ini, saya tidak yakin algoritma AlphaGo dapat membangun model seperti itu tanpa secara eksplisit mengeksplorasi persentase besar dari seluruh konfigurasi permainan Go (yang praktis tidak mungkin). Penelitian saat ini fokus pada membangun representasi yang lebih kompleks dari permainan seperti itu, seperti RL relasional atau pembelajaran logika induktif. Kemudian untuk game yang lebih sederhana (mungkin untuk catur tetapi tidak ada yang pasti),

Tetap saja itu hanya pendapat. Tapi saya cukup yakin bahwa kunci untuk menjawab pertanyaan Anda berada dalam pendekatan RL yang saat ini masih cukup sederhana dalam hal pengetahuan. Kami tidak benar-benar dapat mengidentifikasi apa yang membuat kami dapat menangani permainan ini, dan cara terbaik yang kami temukan hingga mengalahkan manusia adalah dengan secara kasar belajar darinya, dan meningkatkan (sedikit) model yang dipelajari dengan perhitungan besar-besaran.

Robin
sumber
1

Bermain sendiri yang kompetitif tanpa basis data manusia bahkan dimungkinkan untuk lingkungan yang rumit dan teramati sebagian. OpenAI berfokus pada arah ini. Menurut artikel ini :

Bermain sendiri memastikan bahwa lingkungan selalu kesulitan yang tepat untuk AI untuk meningkatkan.

Itulah alasan penting untuk keberhasilan permainan mandiri.

OpenAI mencapai hasil manusia super untuk Dota 2 1v1, pada 11 Agustus 2017, mengalahkan Dendi 2-0 di bawah peraturan standar turnamen.

Bot mempelajari permainan dari awal dengan bermain sendiri, dan tidak menggunakan pembelajaran imitasi atau pencarian pohon. Ini adalah langkah menuju membangun sistem AI yang mencapai tujuan yang jelas dalam situasi berantakan dan rumit yang melibatkan manusia nyata.

Bukan hanya game, arah ini juga menjanjikan untuk tugas robotika.

Kami telah menemukan bahwa bermain sendiri memungkinkan AI yang disimulasikan untuk menemukan keterampilan fisik seperti menangani, merunduk, berpura-pura, menendang, menangkap, dan menyelam untuk bola, tanpa secara eksplisit merancang lingkungan dengan keterampilan ini dalam pikiran.

Pada langkah berikutnya, mereka memperluas metode untuk belajar bagaimana bekerja sama, bersaing dan berkomunikasi , tidak hanya membatasi untuk bermain sendiri.

TQA
sumber