Saya bukan spesialis masalah ini, dan pertanyaan saya mungkin sangat naif. Ini berasal dari esai untuk memahami kekuatan dan keterbatasan pembelajaran penguatan seperti yang digunakan dalam program AlphaGo.
Program AlphaGo telah dibangun menggunakan, antara lain (penjelajahan Monte-Carlo pohon, dll.), Jaringan saraf yang dilatih dari database besar game go yang dimainkan manusia, dan yang kemudian diperkuat dengan membiarkan versi play dari Program terhadap dirinya sendiri berkali-kali.
Sekarang saya bertanya-tanya apa yang akan terjadi adalah kami mencoba membangun program seperti itu tanpa basis data manusia, yaitu mulai dengan program dasar Go just mengetahui aturan dan beberapa metode untuk mengeksplorasi pohon, dan membiarkan bermain melawan dirinya sendiri untuk meningkatkan jaringan sarafnya. Akankah kita, setelah banyak pertandingan melawan dirinya sendiri, tiba di sebuah program yang mampu bersaing dengan atau mengalahkan pemain manusia terbaik? Dan jika demikian, berapa banyak game (dalam urutan besarnya) yang dibutuhkan untuk itu? Atau sebaliknya, akankah program seperti itu bertemu dengan pemain yang jauh lebih lemah?
Saya berasumsi bahwa percobaan belum dilakukan, karena AlphaGo sangat baru. Tetapi jawabannya mungkin jelas bagi seorang spesialis. Kalau tidak, tebakan yang berpendidikan akan menarik minat saya.
Orang juga dapat mengajukan pertanyaan yang sama untuk game "sederhana". Jika kita menggunakan teknik pembelajaran penguatan yang kira-kira sama dengan yang digunakan untuk AlphaGo, tetapi tanpa menggunakan basis data manusia, untuk program Catur, akankah kita akhirnya mendapatkan program yang mampu mengalahkan manusia terbaik? Dan jika demikian, seberapa cepat? Apakah ini sudah dicoba? Atau jika bukan karena Catur, bagaimana dengan Catur, atau bahkan permainan yang lebih sederhana?
Terima kasih banyak.
Pertanyaan yang sama telah diajukan kepada penulis makalah AlphaGo dan jawabannya adalah bahwa kita tidak tahu apa yang akan terjadi jika AlphaGo akan belajar dari awal (mereka belum mengujinya).
Namun, mengingat kompleksitas permainan, itu akan menjadi tugas yang sulit untuk melatih suatu algoritma dari awal tanpa pengetahuan sebelumnya. Dengan demikian, masuk akal pada mulanya untuk mulai membangun sistem seperti itu dengan meningkatkannya ke tingkat Master menggunakan pengetahuan yang diperoleh manusia.
Perlu dicatat bahwa, meskipun gerakan manusia bias pemilihan tindakan di node pohon (negara), ini sebelumnya memiliki faktor pembusukan. Ini berarti bahwa peningkatan kunjungan ke keadaan tertentu, mengurangi kekuatan sebelum mendorong algoritma untuk mengeksplorasi.
Level Mastery of AlphaGo saat ini tidak diketahui seberapa dekat atau seberapa jauh itu dengan cara bermain manusia (dalam turnamen itu ada satu gerakan yang manusia nyaris memiliki kemungkinan nol untuk tampil! - tetapi sama-sama melakukan beberapa gerakan yang sangat buruk juga) . Mungkin tetap semua pertanyaan ini harus dijawab dengan benar-benar menerapkan algoritma pengujian yang sesuai.
Saya berhutang untuk mengedit jawaban saya karena makalah DeepMind terbaru menjawab pertanyaan Anda. Ada banyak kemajuan yang muncul dari seluruh pengalaman sebelumnya dengan versi pertama dari AlphaGo dan sangat layak untuk membacanya.
sumber
Sejauh yang saya mengerti algoritma AlphaGo, ini didasarkan pada kerangka kerja penguatan sederhana (RL), menggunakan pencarian pohon Monte-Carlo untuk memilih tindakan terbaik. Di atas itu, negara dan tindakan yang dicakup oleh algoritma RL tidak hanya seluruh konfigurasi yang mungkin dari permainan (Go memiliki kompleksitas yang sangat besar) tetapi didasarkan pada jaringan kebijakan dan jaringan nilai, dipelajari dari permainan nyata dan kemudian ditingkatkan dengan memainkan game AlphaGo vs AlphaGo.
Maka kita mungkin bertanya-tanya apakah pelatihan dari game nyata hanyalah jalan pintas untuk menghemat waktu atau opsi yang diperlukan untuk mendapatkan efisiensi seperti itu. Saya kira tidak ada yang benar-benar tahu jawabannya, tetapi kita dapat menyatakan beberapa asumsi. Pertama, kemampuan manusia untuk mempromosikan gerakan yang baik adalah karena kecerdasan yang jauh lebih kompleks daripada jaringan saraf sederhana. Untuk permainan papan, itu adalah campuran antara memori, pengalaman, logika dan perasaan. Dalam arah ini, saya tidak yakin algoritma AlphaGo dapat membangun model seperti itu tanpa secara eksplisit mengeksplorasi persentase besar dari seluruh konfigurasi permainan Go (yang praktis tidak mungkin). Penelitian saat ini fokus pada membangun representasi yang lebih kompleks dari permainan seperti itu, seperti RL relasional atau pembelajaran logika induktif. Kemudian untuk game yang lebih sederhana (mungkin untuk catur tetapi tidak ada yang pasti),
Tetap saja itu hanya pendapat. Tapi saya cukup yakin bahwa kunci untuk menjawab pertanyaan Anda berada dalam pendekatan RL yang saat ini masih cukup sederhana dalam hal pengetahuan. Kami tidak benar-benar dapat mengidentifikasi apa yang membuat kami dapat menangani permainan ini, dan cara terbaik yang kami temukan hingga mengalahkan manusia adalah dengan secara kasar belajar darinya, dan meningkatkan (sedikit) model yang dipelajari dengan perhitungan besar-besaran.
sumber
Bermain sendiri yang kompetitif tanpa basis data manusia bahkan dimungkinkan untuk lingkungan yang rumit dan teramati sebagian. OpenAI berfokus pada arah ini. Menurut artikel ini :
Itulah alasan penting untuk keberhasilan permainan mandiri.
OpenAI mencapai hasil manusia super untuk Dota 2 1v1, pada 11 Agustus 2017, mengalahkan Dendi 2-0 di bawah peraturan standar turnamen.
Bukan hanya game, arah ini juga menjanjikan untuk tugas robotika.
Pada langkah berikutnya, mereka memperluas metode untuk belajar bagaimana bekerja sama, bersaing dan berkomunikasi , tidak hanya membatasi untuk bermain sendiri.
sumber