Saya sedang mengerjakan masalah bandit multi-bersenjata di mana kami tidak memiliki informasi tentang distribusi hadiah.
Saya telah menemukan banyak makalah yang menjamin batas penyesalan untuk distribusi dengan batas yang diketahui, dan untuk distribusi umum dengan dukungan pada [0,1].
Saya ingin mencari tahu apakah ada cara untuk bekerja dengan baik di lingkungan di mana distribusi hadiah tidak memiliki jaminan tentang dukungannya. Saya mencoba menghitung batas toleransi nonparametrik dan menggunakan angka itu untuk menskalakan distribusi hadiah sehingga saya dapat menggunakan algoritma 2 yang ditentukan pada makalah ini ( http://jmlr.org/proceedings/papers/v23/agrawal12/agrawal12.pdf ). Adakah yang mengira pendekatan ini akan berhasil?
Jika tidak, adakah yang bisa mengarahkan saya ke tempat yang tepat?
Terima kasih banyak!