Belajar mengacu pada algoritma apa pun yang memurnikan kepercayaan tentang dunia melalui paparan pengalaman atau contoh pengalaman orang lain. Algoritma pembelajaran tidak memiliki induk yang jelas, karena mereka dikembangkan secara terpisah di banyak subbidang atau disiplin ilmu yang berbeda. Taksonomi yang masuk akal adalah model 5 suku . Beberapa algoritma pembelajaran benar-benar menggunakan pencarian di dalam diri mereka sendiri untuk mengetahui cara mengubah keyakinan mereka sebagai respons terhadap pengalaman baru!
Contoh dari algoritma pembelajaran yang digunakan saat ini adalah Q-learning , yang merupakan bagian dari keluarga yang lebih umum dari algoritma pembelajaran penguatan . Q-learning bekerja seperti ini:
Sebuah. Program pembelajaran (biasanya disebut agen ) diberikan representasi dari keadaan dunia saat ini, dan daftar tindakan yang bisa dipilih untuk dilakukan.
b. Jika agen belum pernah melihat keadaan dunia ini sebelumnya, agen tersebut memberikan nomor acak pada hadiah yang diharapkannya untuk melakukan setiap tindakan. Ini menyimpan nomor ini sebagaiQ ( s , a ), tebakannya pada kualitas tindakan yang dilakukan Sebuah dalam keadaan s.
c. Agen itu memandangQ ( s , a )untuk setiap tindakan yang bisa dilakukan. Ini mengambil tindakan terbaik dengan beberapa kemungkinanϵ dan jika tidak bertindak secara acak.
d. Tindakan agen menyebabkan dunia berubah dan dapat menyebabkan agen menerima hadiah dari lingkungan. Agen membuat catatan apakah ia mendapat hadiah (dan berapa banyak hadiah itu), dan seperti apa keadaan dunia yang baru. Kemudian menyesuaikan keyakinannya tentang kualitas melakukan tindakan yang dilakukan di negara itu dulu, sehingga keyakinannya tentang kualitas tindakan itu lebih dekat dengan realitas hadiah yang didapatnya, dan kualitas di mana ia melakukannya. berakhir.
e. Agen mengulangi langkah-langkah dan selamanya. Seiring waktu, kepercayaannya tentang kualitas berbagai negara / tindakan pasangan akan bertemu untuk mencocokkan kenyataan lebih dan lebih dekat.