Untuk beberapa alasan, AlphaGo Zero tidak mendapatkan publisitas sebanyak seperti AlphaGo asli, meskipun hasilnya luar biasa. Mulai dari awal, sudah mengalahkan AlphaGo Master dan telah melewati banyak tolok ukur lainnya. Bahkan yang lebih luar biasa, ini dilakukan dalam 40 hari. Google menamainya sebagai "pemain Go terbaik di dunia" .
DeepMind mengklaim ini adalah "bentuk baru dari pembelajaran penguatan" - apakah teknik ini benar-benar baru? Atau pernahkah ada waktu lain ketika teknik ini digunakan - dan jika demikian, apa hasilnya? Saya pikir persyaratan yang saya bicarakan adalah 1) tidak ada campur tangan manusia dan 2) tidak ada permainan sejarah, tetapi ini fleksibel.
Ini tampaknya pertanyaan yang serupa, tetapi semua jawaban tampaknya dimulai dari asumsi bahwa AlphaGo Zero adalah yang pertama dari jenisnya.
sumber
Jawaban:
Artikel AlphaGo Zero dari Nature , "Menguasai Game Go tanpa Pengetahuan Manusia", mengklaim empat perbedaan utama dari versi sebelumnya:
Poin (1) dan (2) bukan hal baru dalam pembelajaran Penguatan, tetapi meningkatkan pada perangkat lunak AlphaGo sebelumnya seperti yang dinyatakan dalam komentar untuk pertanyaan Anda. Itu hanya berarti mereka sekarang menggunakan Pembelajaran Penguatan murni mulai dari bobot yang diinisialisasi secara acak. Ini diaktifkan oleh algoritma pembelajaran yang lebih baik dan lebih cepat.
Klaim mereka di sini adalah "Kontribusi utama kami adalah untuk menunjukkan bahwa kinerja manusia super dapat dicapai tanpa pengetahuan domain manusia." (hlm. 22).
Poin (3) dan (4) adalah novel dalam arti bahwa algoritma mereka lebih sederhana dan lebih umum daripada pendekatan mereka sebelumnya. Mereka juga menyebutkan bahwa ini merupakan peningkatan dari pekerjaan sebelumnya oleh Guo et al.
Menyatukan jaringan kebijakan / nilai (3) memungkinkan mereka untuk mengimplementasikan varian pencarian pohon Monte-Carlo yang lebih efisien untuk mencari gerakan yang baik dan secara simultan menggunakan pohon pencarian untuk melatih jaringan lebih cepat (4). Ini sangat kuat.
Selain itu, mereka menggambarkan sejumlah detail implementasi yang menarik seperti batching dan menggunakan kembali struktur data untuk mengoptimalkan pencarian langkah baru.
Efeknya adalah ia membutuhkan daya komputasi yang lebih kecil, berjalan pada 4 TPU daripada 176 GPU dan 48 TPU untuk versi sebelumnya dari perangkat lunak mereka.
Ini pasti membuatnya "novel" dalam konteks perangkat lunak Go. Saya percaya bahwa (3) dan (4) juga "novel" dalam konteks yang lebih luas dan akan berlaku di domain Pembelajaran Penguatan lainnya seperti misalnya robotika.
sumber