Bersaing melawan mayoritas tertimbang optimal dalam algoritma pakar

Dalam masalah para ahli, para ahli memberi Anda prediksi biner setiap hari, dan Anda harus memperkirakan apakah besok akan turun hujan. $n$

Yaitu, pada hari , Anda tahu prediksi masa lalu dari para ahli, cuaca aktual untuk hari , dan prediksi untuk hari esok, dan harus memprediksi apakah akan turun hujan pada hari berikutnya. $t$ $1,2,\ldots t$

Dalam algoritma Weighted Majority klasik , algoritma membuat kesalahan $O(\log n + m)$ , di mana $m$ adalah jumlah kesalahan pakar terbaik.

Bagi saya, ini sepertinya janji yang sangat lemah, karena tidak memungkinkan manfaat dari menggabungkan prediksi beberapa ahli.

Asumsikan setiap hasil adalah $\{\pm 1\}$ , prediksi ahli $i$ pada hari $t$ adalah $p_{i,t}$ , dan hasil hari $t$ adalah $o_t$ . Kita dapat mendefinisikan musuh `` mayoritas tertimbang optimal '' sebagai fungsi bobot optimal $w\in\Delta([n])$ , sehingga keputusan yang dibuat oleh musuh pada hari $t$ didefinisikan sebagai $sign(w\cdot p_t)$ , yaitu mayoritas tertimbang dari prediksi, sehubungan dengan vektor $w$ . Menggunakan notasi ini, musuh sebelumnya (ahli terbaik) hanya bisa memilih vektor satuan.

Kita kemudian dapat mendefinisikan kesalahan optimal untuk hari sebagai: $1,2,\ldots T$

E = \frac{1}{2} min_{w \in Δ ([n])} \sum_{t = 1}^{T} | s i g n (w \cdot p_{t}) - o_{t} |

$E = \frac{1}{2}\min_{w\in\Delta([n])} \sum_{t=1}^T|sign(w\cdot p_t)-o_t|$

Bagaimana Anda meminimalkan penyesalan, dibandingkan dengan $E$ ?

Untuk melihat bahwa ini adalah musuh yang jauh lebih kuat, pertimbangkan kasus $3$ ahli dan $3$ hari di mana hasilnya selalu $1$ . Jika $p_1=(1,1,-1), p_2 = (1,-1,1), p_3=(-1,1,1)$ , maka setiap pakar memiliki kesalahan, tetapi vektor mayoritas tertimbang dari $(1/3,1/3,1/3)$ tidak punya.

ds.algorithms machine-learning BPR
sumber

Saya pikir Anda sedang mencari metode Gradient Eksponensial: users.soe.ucsc.edu/~manfred/pubs/J36.pdf

Lev Reyzin

Bobot multiplikasi memiliki kesalahan relatif terhadap ahli tunggal terbaik (dari ) selama putaranKita dapat membuat "ahli meta" yang sesuai dengan semua kemungkinan mayoritas tertimbang dan kemudian menjalankan MW untuk mendapatkan kesalahan . Tidak yakin seberapa besar dibutuhkan - mungkin mencukupi.

O (\sqrt{T \log n})

$O(\sqrt{T\log n})$

n

$n$

T

$T$

N

$N$

O (\sqrt{T \log N})

$O(\sqrt{T \log N})$

N

$N$

N = n^{O (n)}

$N=n^{O(n)}$

Thomas

@ Thomas - memikirkannya beberapa waktu lalu. Anda harus mengatur , yang cukup besar: oeis.org/A000609 .

N = n^{Θ (n^{2})}

$N=n^{\Theta(n^2)}$

O (n \sqrt{T \log n})

$O(n \sqrt{T \log n})$ Kesalahan adalah awal yang baik. Apa tujuanmu?

Thomas

@ Thomas - ini memang awal. Saya berharap untuk algoritma , dan percaya itu harus layak.

o (n \sqrt{T})

$o(n\sqrt T)$

Jika Anda tidak keberatan pengacakan, maka algoritma pembelajaran online standar dalam "kerangka kerja optimasi cembung online" memberi Anda pada dasarnya apa yang Anda minta, dengan harapan. Alasannya adalah bahwa algoritma ini diperlukan untuk menghasilkan distribusi pada ahli di setiap langkah waktu, menderita kerugian yang diharapkan sama dengan harapan memilih ahli dari distribusi ini. Dan mereka memiliki penyesalan yang diharapkan rendah dibandingkan dengan distribusi terbaik pada para ahli, yaitu . $w \in \Delta([n])$ $O(\sqrt{\ln n / T})$

Sebagai contoh, Anda dapat mengambil algoritma bobot multiplikatif klasik, yang hanya mayoritas berbobot tetapi memilih ahli untuk diikuti dengan probabilitas yang sebanding dengan "bobot" -nya. Ini disebutkan dalam survei Arora (Teorema 6): https://www.cs.princeton.edu/~arora/pubs/MWsurvey.pdf

usul
sumber

Usul, ketika Anda mengatakan "penyesalan dibandingkan dengan distribusi ahli terbaik", apakah itu yang diminta BPR? Bukan cara standar menggunakan distribusi para ahli untuk hanya membuat prediksi pecahan pada setiap kali ? Atau (kurang lebih setara) untuk memprediksi 1 dengan probabilitas dan -1 sebaliknya. Lalu, selalu ada optimal hanya menggunakan satu ahli, kan? Tapi seperti yang saya mengerti saran RB, itu sedikit berbeda: membuat prediksi integer: tanda pada setiap waktu . Apakah jelas ini tidak dapat memberikan prediksi yang jauh lebih baik?

w

$w$

w \cdot p_{t}

$w\cdot p_t$

t

$t$

(w \cdot p_{t} + 1) / 2

$(w\cdot p_t + 1)/2$

w

$w$

(w \cdot p_{t})

$(w\cdot p_t)$

t

$t$

Neal Young

@NealYoung, poin bagus, saya tidak memikirkannya terlalu dalam. Secara implisit saya berasumsi bahwa Anda dapat mengonvasikan fungsi objektif ini dan mendapatkan penyesalan yang baik untuk itu, tetapi itu bisa salah ...

usul

Bersaing melawan mayoritas tertimbang optimal dalam algoritma pakar

Jawaban: