Kuliah / Buku tentang AlphaGo / AlphaZero

8

Saya sangat tertarik dengan bagaimana resp AlphaGo. AlphaZero bekerja. Menurut saya, Google Papers terkait sangat padat dan tidak mudah dibaca.

Apakah ada buku pelajaran atau kuliah yang menjelaskan secara teknis bagaimana cara kerjanya? Yaitu dimulai dengan jaringan saraf / pembelajaran mendalam, Pencarian Pohon Monte Carlo hingga mencapai di AlphaGo / AlphaZero?

Saya memiliki master dalam ilmu komputer, tetapi saya tidak pernah bekerja dengan kecerdasan buatan / pembelajaran mesin.

Saat ini terlihat bagi saya bahwa semua informasi terkait tersebar di sekitar, dan saya tidak punya waktu untuk mendengarkan ceramah (online) tentang pembelajaran mesin yang mungkin hanya berisi 10% tentang apa yang relevan untuk memahami AlphaGo ...

Bisakah seseorang mengarahkan saya ke arah yang benar?

chess-algorithms alphazero ndbd
sumber

2

Google DeepMind's AlphaGo: Cara kerjanya

unutbu

2

terima kasih untuk tautannya, tetapi presentasi itu benar-benar sangat dangkal

ndbd

10

EDIT

@ tautan unutbu dalam komentar adalah bacaan pengantar yang bagus.

Pemahaman yang kuat untuk AlphaZero kemungkinan besar membutuhkan gelar kuantitatif (PhD?). Apakah Anda meminta kursus kilat di AlphaZero?

Harap dicatat kecuali jika Anda berinvestasi signifikan jumlah waktu Anda, tidak ada yang saya katakan akan bekerja. Tidak ada buku yang mungkin bisa membahas semuanya. Anda harus bekerja sangat keras.

Mari kita coba. Crash course untuk AlphaZero.

1. Pemahaman dasar dalam pembelajaran mesin

Tak terhitung banyaknya buku. Tetapi jika Anda tidak punya waktu, saya akan merekomendasikan kursus pembelajaran mesin Profesor Andrew Ng di Coursera.

Kata kunci Anda: set pelatihan, set tes, penurunan gradien stokastik, laju pembelajaran, GPU, fungsi biaya, cross entropy .

2. Jaringan netral dalam

Anda perlu memahami tentang jaringan saraf. Saya akan merekomendasikan buku pembelajaran mendalam Profesor Ian Goodfellow jika Anda serius. Jika Anda tidak punya waktu, silakan ikuti lagi kursus online Profesor Andrew Ng di Coursera. Anda tidak harus membaca semua bab (tetapi Anda harus!).

YouTube memiliki banyak pengenalan cepat ke jaringan saraf, cobalah.

Kata kunci Anda: neuron, layer, bobot, bias, mini-batch, aktivasi .

3. Pencarian Pohon Monte Carlo

Anda harus mengerti apa itu Monte Carlo. Buku-buku tentang Monte Carlo ada di mana-mana di Amazon. Baca wikipedia tentang MCTS jika Anda tidak punya waktu.

Kata kunci Anda: pengambilan sampel, ekspansi, simulasi, peluncuran, backpropagation .

3. Pembelajaran penguatan

Kata kunci Anda: gradien kebijakan, gradient descent, tingkat pembelajaran

5. Representasi papan catur

Makalah itu sendiri paling sederhana. Model ini mengkodekan status papan (misalnya potongan) sebagai serangkaian nilai biner penyandian satu-panas.

6. MCTS vs alpha-beta

Catur kecil
sumber

4

terima kasih banyak untuk jawaban terinci. Jadi sepertinya sayangnya tidak ada panduan langsung ke depan. Maksud saya adalah bahwa tentu saja sebagai CS mayor saya tahu tentang jaringan saraf, tetapi bukan jenis jaringan khusus yang digunakan dalam Alpha *. Saya kira-kira tahu tentang MCTS yang diperkenalkan oleh Bernd Brügmann, tetapi bukan jenis adaptasi spesifik untuk Alpha *. Sama untuk pembelajaran penguatan. Misalnya saja kursus Andrew Ng di ML sangat luas dan mencakup hal-hal seperti PCA / LDA, yang sejauh yang saya tahu sama sekali tidak relevan di sini. Tapi kurasa, aku harus menyelesaikannya sendiri ;-)

ndbd

7

Saya tidak memiliki reputasi yang cukup untuk berkomentar, tetapi AlphaGo Zero Dijelaskan Dalam Satu Diagram cukup bagus.

Saya juga sangat suka tutorial ini .

Perhatikan bahwa tautan pertama tidak menjelaskan kapan harus membuat (memperluas) node. Bagian itu bisa sedikit membingungkan. Tautan ini dapat membantu.

biarawan
sumber

Itu bagus. Saya suka itu. +1.

SmallChess

3

Presentasi ini merangkum perjalanan ke AlphaGo

Ini adalah presentasi dari teori yang mendasarinya

Ini bukunya

Plus, saya kira, apa pun di jaringan saraf convolutional yang mendalam.

IA Petr Harasimovic
sumber

Kuliah / Buku tentang AlphaGo / AlphaZero

Jawaban: