UCB memang mendekati optimal dalam kasus stokastik (hingga faktor T log untuk pertandingan putaran T), dan hingga kesenjangan dalam ketidaksetaraan Pinsker dalam arti masalah yang lebih tergantung. Makalah Audibert dan Bubeck baru-baru ini menghilangkan ketergantungan log ini dalam kasus terburuk, tetapi memiliki ikatan yang lebih buruk dalam kasus menguntungkan ketika lengan yang berbeda memiliki hadiah yang dipisahkan dengan baik.
Secara umum, UCB adalah salah satu kandidat dari keluarga besar algoritma. Pada titik mana pun dalam permainan, Anda dapat melihat semua lengan yang tidak "didiskualifikasi", yaitu, yang batas kepercayaan atasnya tidak lebih kecil dari batas kepercayaan yang lebih rendah dari beberapa lengan. Memilih berdasarkan distribusi senjata yang memenuhi syarat tersebut merupakan strategi yang valid dan mendapatkan penyesalan yang sama hingga konstanta.
Secara empiris, saya tidak berpikir telah ada evaluasi yang signifikan dari banyak strategi yang berbeda, tetapi saya pikir UCB seringkali cukup baik.
Sebagian besar penelitian yang lebih baru telah berfokus pada memperluas masalah bandit di luar pengaturan K-bersenjata sederhana dengan imbalan stokastik, ke ruang tindakan yang sangat besar (atau tak terbatas), dengan atau tanpa informasi sampingan, dan di bawah umpan balik stokastik atau permusuhan. Ada juga pekerjaan dalam skenario di mana kriteria kinerja berbeda (seperti identifikasi lengan terbaik saja).