Bayangkan pengaturan berikut: Anda memiliki 2 koin, koin A yang dijamin adil, dan koin B yang mungkin atau mungkin tidak adil. Anda diminta untuk melakukan 100 koin terbalik, dan tujuan Anda adalah memaksimalkan jumlah kepala .
Informasi Anda sebelumnya tentang koin B adalah bahwa koin itu dibalik 3 kali dan menghasilkan 1 kepala. Jika aturan keputusan Anda hanya didasarkan pada membandingkan probabilitas yang diharapkan dari kepala 2 koin, Anda akan membalik koin A 100 kali dan selesai dengan itu. Ini benar bahkan ketika menggunakan estimasi Bayesian yang masuk akal (sarana posterior) dari probabilitas, karena Anda tidak memiliki alasan untuk percaya bahwa koin B menghasilkan lebih banyak kepala.
Namun, bagaimana jika koin B sebenarnya bias mendukung kepala? Tentunya "calon kepala" yang Anda berikan dengan membalik koin B beberapa kali (dan karena itu mendapatkan informasi tentang sifat statistiknya) akan bernilai dalam beberapa hal dan karenanya akan menjadi faktor dalam keputusan Anda. Bagaimana "nilai informasi" ini dijelaskan secara matematis?
Pertanyaan: Bagaimana Anda membuat aturan keputusan yang optimal secara matematis dalam skenario ini?
sumber
Jawaban:
Bandit multi-bersenjata
Ini adalah kasus khusus dari masalah bandit Multi-Armed . Saya mengatakan kasus tertentu karena umumnya kita tidak tahu apa dari probabilitas kepala (dalam hal ini kita tahu salah satu koin memiliki probabilitas 0,5).
Masalah yang Anda ajukan dikenal sebagai dilema eksplorasi vs eksploitasi : apakah Anda menjelajahi opsi lain, atau apakah Anda tetap dengan yang menurut Anda adalah yang terbaik. Ada solusi optimal langsung dengan asumsi Anda tahu semua probabilitas : cukup pilih koin dengan probabilitas menang tertinggi. Masalahnya, seperti yang telah Anda singgung, adalah bahwa kami tidak yakin tentang probabilitas sebenarnya.
Ada banyak literatur tentang masalah ini, dan ada banyak algoritma deterministik, tetapi karena Anda menandai Bayesian ini, saya ingin memberi tahu Anda tentang solusi favorit pribadi saya: Bayesian Bandit !
Solusi Baysian Bandit
Pendekatan Bayesian untuk masalah ini sangat alami. Kami tertarik untuk menjawab, "Berapa probabilitas koin X lebih baik dari keduanya?".
Sebuah priori , dengan asumsi kita telah mengamati ada koin membalik belum, kita tidak tahu apa probabilitas koin B Heads mungkin, menunjukkan ini tidak diketahui . Jadi kita harus menetapkan distribusi seragam sebelumnya untuk probabilitas yang tidak diketahui ini. Atau, sebelumnya (dan posterior) kami untuk koin A secara sepele terkonsentrasi seluruhnya pada 1/2.pB
Seperti yang telah Anda nyatakan, kami mengamati 2 ekor dan 1 kepala dari koin B, kami perlu memperbarui distribusi posterior kami. Dengan asumsi seragam sebelumnya, dan membalik adalah koin-membalik Bernoulli, posterior kami adalah . Membandingkan distribusi posterior atau A dan B sekarang:Beta(1+1,1+2)
Menemukan strategi yang kurang lebih optimal
Sekarang setelah kita memiliki eksterior, apa yang harus dilakukan Kami tertarik untuk menjawab "Berapa probabilitas koin B lebih baik dari keduanya" (Ingat dari perspektif Bayesian kami, meskipun ada jawaban pasti yang mana yang lebih baik, kami hanya dapat berbicara dalam probabilitas):
Skema ini juga memperbarui sendiri. Ketika kami mengamati hasil memilih koin B, kami memperbarui posterior kami dengan informasi baru ini, dan memilih lagi. Dengan cara ini, jika koin B benar-benar buruk, kami akan memilihnya lebih sedikit, dan koin B sebenarnya sangat bagus, kami akan memilihnya lebih sering. Tentu saja, kita adalah orang Bayesian, maka kita tidak pernah bisa benar-benar yakin koin B lebih baik. Memilih secara probabilistik seperti ini adalah solusi paling alami untuk dilema eksplorasi-eksploitasi.
Ini adalah contoh khusus dari Thompson Sampling . Informasi lebih lanjut, dan aplikasi keren untuk iklan online, dapat ditemukan di makalah penelitian Google dan makalah penelitian Yahoo . Saya suka barang ini!
sumber
Ini adalah kasus sederhana dari masalah bandit multi-bersenjata . Seperti yang Anda perhatikan, Anda ingin menyeimbangkan informasi yang Anda kumpulkan dengan mencoba koin yang tidak dikenal saat Anda berpikir tidak optimal dalam jangka pendek melawan eksploitasi pengetahuan yang Anda miliki.
Secara umum, saya pikir Anda tidak dapat melepaskan diri dari masalah pemrograman dinamis, meskipun mungkin ada kasus khusus di mana strategi optimal dapat ditemukan dan diperiksa lebih sederhana.
Dengan seragam sebelumnya, di sinilah Anda harus berhenti:
Saya menggunakan kode Mathematica berikut untuk menghitung ekuitas:
Sebagai perbandingan, heuristik pengambilan sampel Thompson (yang diklaim Cam Davidson Pilon optimal) memberikan rata-rata 60.2907 kepala, lebih rendah sebesar 1.03915. Sampling Thompson memiliki masalah yang terkadang menjadi sampel B ketika Anda memiliki informasi yang cukup untuk mengetahui bahwa itu bukan taruhan yang baik, dan sering kali membuang-buang peluang untuk mengambil sampel B lebih awal, ketika informasi paling berharga. Dalam jenis masalah ini, Anda hampir tidak pernah acuh tak acuh di antara pilihan Anda, dan ada strategi optimal murni.
sumber