Algoritme bandit yang paling terkenal adalah UCB yang memopulerkan kelas algoritma ini. Sejak itu saya kira sekarang ada algoritma yang lebih baik. Apa algoritma terbaik saat ini (dalam hal kinerja empiris atau batas teoritis)? Apakah algoritma ini optimal dalam beberapa