Masalah Warren Buffett

Ini adalah abstraksi dari masalah pembelajaran / bandit online yang telah saya kerjakan di musim panas. Saya belum pernah melihat masalah seperti ini sebelumnya, dan itu terlihat cukup menarik. Jika Anda tahu ada pekerjaan terkait, saya sangat menghargai referensi.

Masalah Pengaturannya adalah bandit multi-bersenjata. Anda memiliki lengan N. Setiap lengan saya memiliki distribusi probabilitas yang tidak diketahui tetapi tetap atas hadiah yang dapat diperoleh dengan memainkannya. Untuk konkret, mari kita asumsikan bahwa setiap lengan saya membayar hadiah $ 10 dengan probabilitas p [i] dan hadiah $ 0 dengan prob. 1-p [i] .

Dalam setiap putaran t Anda memilih satu set S [t] senjata untuk bermain. Untuk setiap lengan yang Anda pilih, Anda membayar biaya $ 1 di muka. Untuk setiap lengan yang dipilih, Anda mengumpulkan hadiah yang diambil dari distribusi probabilitas hadiah (tidak diketahui) dari lengan itu. Semua hadiah dikreditkan ke rekening bank Anda, dan semua biaya dikurangkan dari akun itu. Selain itu, Anda mendapatkan kredit $ 1 di awal setiap iterasi.

Masalahnya adalah untuk mengembangkan kebijakan untuk memilih subset senjata untuk dimainkan di setiap iterasi untuk memaksimalkan keuntungan (yaitu hadiah dikurangi biaya untuk bermain) selama cakrawala yang cukup lama, tunduk pada batasan bahwa ia harus mempertahankan saldo akun non-negatif di setiap saat.

Saya tidak menentukan apakah distribusi hadiah per-lengan dipilih dari distribusi sebelumnya atau dipilih oleh musuh. Kedua pilihan itu masuk akal. Formulasi musuh lebih menarik bagi saya, tetapi mungkin lebih sulit untuk membuat kemajuan. Di sini, musuh memilih vektor (D1, D2, .., DN) dari distribusi. Mengingat distribusi, kebijakan seimbang anggaran optimal adalah untuk memainkan semua senjata yang hadiah yang diharapkan lebih dari $ 1. Biarkan P menjadi laba per langkah dari kebijakan mahatahu yang optimal ini. Saya ingin kebijakan online saya untuk meminimalkan penyesalan (yaitu hilangnya laba selama jangka waktu T), menggunakan kebijakan yang maha tahu ini.

machine-learning lg.learning online-learning Martin Pál
sumber

Apakah Anda yakin bahwa kebijakan terbaik adalah memainkan semua senjata yang hadiah yang diharapkan lebih dari $ 1 di setiap putaran? Jika Anda memiliki batasan ketat bahwa Anda harus menjaga saldo akun non-negatif setiap saat, mungkin ada putaran di mana Anda bahkan tidak diizinkan untuk bermain.

Matthias

Jadi, Anda tidak tahu probabilitas imbalannya, tetapi Anda dapat memberi tahu imbalan dari masing-masing kelompok?

David Thornley

Anda tidak tahu probabilitas dan Anda tidak tahu imbalan yang diharapkan. Namun, kebijakan "optimal" mahatahu yang ingin saya bandingkan dengan saya dapat memainkan semua senjata dengan hadiah lebih besar dari 1 karena itu maha tahu.

Martin Pál

Saya akan menebak bahwa setelah putaran

Anda bisa mendapatkan penghasilan yang diharapkan dalam faktor konstan yang optimal, setelah itu masalahnya tampaknya telah kehilangan sebagian besar karakter yang tidak biasa. Batas bawah

mengikuti dari sebuah instance di mana hanya satu lengan memiliki hasil yang tidak nol. Saya tidak melihat batas atas segera.

Θ (N)

$\Theta(N)$

Ω (N)

$\Omega(N)$

Warren Schudy

Koreksi: setelah putaran

Anda mungkin tidak dapat menjamin untuk mendapatkan dalam faktor pendapatan konstan yang konstan. Namun Anda mungkin bisa mendapatkan jaminan itu relatif terhadap pendapatan yang tersedia dari senjata yang mengharapkan pengembalian setidaknya katakanlah 2 dolar.

Θ (N)

$\Theta(N)$

Warren Schudy

Saya membayangkan ada banyak pendekatan yang mungkin untuk masalah ini (banyak yang saya yakin Anda pertimbangkan) - berikut adalah beberapa ide / referensi.

$N$
$O(2^{N/2} T^{1/2})$
Dalam makalah NIPS 2010 mendatang, Saten Kale, Rob Schapire, dan saya mempertimbangkan kasus di mana seseorang memainkan serentetan senjata sekaligus. Namun, dalam pekerjaan kami, ukuran batu tulis ditetapkan. Makalah ini juga mempertimbangkan masalah serupa. Karya lain yang serupa muncul di ALT 2010. Mungkin beberapa gagasan berpindah.
$2^N$ $O(N\sqrt{T})$ $O(2^N T)$

Sunting di bawah ini:

$0$ $1$ $(n-1)/n$ $T$ $T$ $(n-1)T/n$

$B$ $0$ $2B$ $1/B$

Lev Reyzin
sumber

Hai Lev, terima kasih atas petunjuknya. Saya setuju bahwa jika saya memiliki anggaran awal yang tidak terbatas dengan bermain bandit paralel tunggal lengan akan menyelesaikan masalah. Kendala anggaran bagaimanapun memperkenalkan kopling di antara senjata dan membuat hal-hal menarik. Secara khusus, pada langkah pertama Anda hanya memiliki anggaran untuk memainkan satu lengan. Pada langkah kedua Anda bisa memainkan 11 lengan atau hanya 1 lengan, tergantung pada apakah Anda beruntung di langkah pertama dan seterusnya. Jadi, penting untuk menemukan banyak senjata yang menguntungkan sejak awal sehingga Anda kemudian menggunakan eksplorasi lebih lanjut.

Martin Pál

Saya tidak menyadari ada anggaran awal (sekarang saya mengerti bagian "saldo non-negatif", tetapi mungkin Anda bisa membuatnya lebih jelas dalam pertanyaan?) - yang membuat masalah lebih menarik. Juga versi "kontekstual" atau pakar mungkin menyenangkan untuk dipertimbangkan. Sayangnya, saya tidak tahu referensi yang lebih relevan untuk masalah ini.

Lev Reyzin

Jika saya mendapatkan rumusan masalah dengan benar, Anda mendapatkan $ 1 ekstra setiap putaran. Martin, bisakah Anda menjelaskan pertanyaan itu?

Jukka Suomela

Saya pikir Anda mendapatkan apa pun yang dibayar mesin jika Anda memainkannya dan menang dan kalah $ 1 setiap kali Anda memutuskan untuk bermain.

Lev Reyzin

Masalah Warren Buffett

Jawaban: