Saya telah membaca tentang sejumlah algoritma untuk memecahkan masalah bandit n-bersenjata seperti -greedy, softmax, dan UCB1, tapi saya mengalami beberapa masalah memilah pendekatan apa yang terbaik untuk meminimalkan penyesalan.
Apakah ada algoritma optimal yang diketahui untuk memecahkan masalah bandit n-bersenjata? Apakah ada pilihan algoritma yang tampaknya berkinerja terbaik dalam praktik?
Jawaban:
Berikut adalah dua makalah survei yang saya temukan baru-baru ini. Saya belum membacanya, tetapi abstraknya terdengar menjanjikan.
Joann`s Vermorel dan Mehryar Mohri: Algoritma Bandit Multi-Armed dan Evaluasi Empiris (2005)
Dari abstrak:
Volodymyr Kuleshov dan Doina Precup: Algoritma untuk masalah bandit multi-bersenjata (2000) Dari abstrak:
sumber