Saya akan mencoba memberikan penjelasan tanpa matematika. Sebagian dari jawaban ini diulangi dari beberapa poin yang saya buat sebagai jawaban untuk pertanyaan lain tentang masalah MAB .
Pertukaran strategis dalam masalah bandit multi-lengan: Dalam masalah bandit multi-lengan , penjudi memainkan satu "bandit" setiap putaran dan berupaya memaksimalkan pengembalian total yang diharapkan selama sejumlah putaran tertentu. Pengembalian yang diharapkan dari masing-masing bandit dijelaskan oleh beberapa parameter yang tidak diketahui dalam masalah, dan saat kami mengamati lebih banyak hasil di setiap putaran, kami mendapatkan informasi lebih lanjut tentang parameter yang tidak diketahui ini, dan karenanya, tentang pengembalian yang diharapkan dari masing-masing bandit. . Dalam setiap putaran permainan (kecuali yang terakhir), masalah MAB melibatkan pertukaran strategis oleh penjudi antara dua tujuan:
Imbalan langsung: Dalam setiap putaran ia ingin memilih distribusi yang memberinya hadiah yang diharapkan tinggi pada putaran ini, yang mensyaratkan preferensi untuk distribusi yang ia (saat ini) rencanakan untuk memiliki hadiah rata-rata tinggi;
Hadiah di masa depan (dipengaruhi oleh perolehan informasi): Di sisi lain, ia ingin memperbaiki pengetahuannya tentang imbalan yang diharapkan dengan mendapatkan lebih banyak informasi tentang distribusi (terutama yang tidak ia mainkan sebanyak yang lain), sehingga ia dapat tingkatkan pilihannya di putaran selanjutnya.
Kepentingan relatif dari kedua hal ini akan menentukan trade-off, dan kepentingan relatif ini dipengaruhi oleh sejumlah faktor. Misalnya, jika hanya ada sejumlah kecil putaran yang tersisa dalam masalah, maka kesimpulan untuk uji coba di masa depan relatif kurang bernilai, sedangkan jika ada sejumlah besar putaran yang tersisa maka kesimpulan untuk imbalan di masa depan relatif lebih berharga. Jadi penjudi perlu mempertimbangkan seberapa besar dia ingin fokus pada memaksimalkan imbalan langsung di babak saat ini, dan seberapa banyak dia ingin menyimpang dari ini, untuk mempelajari lebih lanjut tentang parameter yang tidak diketahui yang menentukan imbalan yang diharapkan dari masing-masing bandit.
Sampling Thompson: Gagasan dasar pengambilan sampel Thompson adalah bahwa dalam setiap putaran, kami mengambil pengetahuan kami tentang mesin, yang dalam bentuk kepercayaan posterior tentang parameter yang tidak diketahui, dan kami "mencicipi" parameter dari distribusi posterior ini. Parameter sampel ini menghasilkan satu set penghargaan yang diharapkan untuk setiap mesin, dan sekarang kami bertaruh pada satu dengan pengembalian yang diharapkan tertinggi, di bawah parameter sampel itu.
Facie Prima , skema pengambilan sampel Thompson tampaknya melibatkan upaya untuk memaksimalkan pengembalian yang diharapkan segera di setiap putaran (karena melibatkan langkah maksimalisasi ini setelah pengambilan sampel parameter). Namun, karena melibatkan pengambilan sampel acak parameter dari posterior, skema tersebut melibatkan implisitvariasi memaksimalkan hadiah saat ini, dibandingkan mencari informasi lebih lanjut. Sebagian besar waktu kita akan mendapatkan "sampel" parameter yang ada di suatu tempat di bagian utama posterior, dan pilihan mesin kira-kira akan mendekati maksimalisasi hadiah langsung. Namun, kadang-kadang kita akan secara acak sampel nilai parameter yang jauh di ujung distribusi posterior, dan dalam hal ini kita akan akhirnya memilih mesin yang tidak memaksimalkan hadiah langsung - yaitu, ini akan lebih merupakan "pencarian "untuk membantu hadiah di masa depan.
Skema Thompson juga memiliki properti yang bagus sehingga kita cenderung mengurangi "pencarian" kita ketika kita mendapatkan lebih banyak informasi, dan ini meniru trade-off strategis yang diinginkan dalam masalah, di mana kita ingin lebih sedikit fokus pada pencarian ketika kita memperoleh lebih banyak informasi. Ketika kita bermain lebih banyak dan lebih banyak putaran dan mendapatkan lebih banyak dan lebih banyak data, posterior bertemu lebih dekat dengan nilai parameter yang benar dan sehingga "pengambilan sampel" acak dalam skema Thompson menjadi lebih padat di sekitar nilai parameter yang akan mengarah pada maksimalisasi hadiah langsung. Oleh karena itu, ada kecenderungan implisit skema ini untuk lebih "berorientasi pencarian" sejak awal dengan sedikit informasi, dan sedikit "berorientasi pencarian" di kemudian hari ketika ada banyak data.
Sekarang, setelah mengatakan ini, satu kelemahan yang jelas dari skema pengambilan sampel Thompson adalah bahwa hal itu tidak memperhitungkan jumlah putaran yang tersisa dalam masalah MAB. Skema ini kadang-kadang dirumuskan berdasarkan permainan dengan putaran tak terbatas, dan dalam hal ini bukan masalah. Namun, dalam masalah MAB dengan putaran terbatas, lebih disukai untuk memperhitungkan jumlah putaran yang tersisa untuk mengurangi "pencarian" karena jumlah putaran di masa depan berkurang. (Dan khususnya, permainan optimal di babak terakhir adalah untuk mengabaikan pencarian sepenuhnya dan hanya bertaruh pada bandit dengan pengembalian posterior tertinggi yang diharapkan.) Skema Thompson tidak melakukan ini, sehingga ia akan memainkan permainan putaran-terbatas dengan cara yang jelas kurang optimal dalam kasus-kasus tertentu.
Saya akan mencobanya dan saya harap Anda menyukainya! Ada beberapa rumus di bawah ini yang mungkin membuat Anda takut. Saya tidak berharap begitu, karena saya akan melakukan yang terbaik untuk menjelaskannya dengan cara paling sederhana yang saya bisa.
Ini adalah dua formula:
TL; DR
Thompson Sampling memungkinkan Anda
Kemungkinan??
Kemungkinannya adalah sesuatu yang menentukan seberapa besar kemungkinannya . Dalam hal ini kemungkinan mengatakan seberapa besar kemungkinannya kita mendapatkan hadiahr jika bermain aksi Sebuah dalam konteks x . Misalnya, jika hujan (konteks!) Dan Anda mengambil payung (tindakan!) Anda tetap kering (hadiah! :)). Di sisi lain, jika tidak hujan (konteks!) Dan Anda mengambil payung (tindakan!) Anda harus membawa beban ekstra (hadiah negatif! :(). Jadi kemungkinan adalah hal sentral yang ingin Anda pahami. Jika Anda tahu segalanya tentang kemungkinannya, mudah untuk bertindak optimal.
Bagaimana dengan lingkaran aneh itu ??
Seperti yang mungkin Anda perhatikan, saya tidak menulis apa pun tentang lingkaran aneh ituθ yang disebut theta. (Matematikawan memiliki kebiasaan menunjukkan bagian mana yang paling sulit dengan memberi mereka huruf Yunani, membuatnya lebih sulit untuk dipahami). Iniθ mewakili parameter model. Parameter ini digunakan ketika hubungan antara tindakan + konteks dan hadiah lebih sulit. Sebagai contoh, parameter model mungkin berapa banyak hadiah Anda turun jika hujan 1mm jatuh di atas kepala Anda. Parameter model lain mungkin menyatakan berapa banyak hadiah Anda turun jika Anda membawa payung. Saya hanya mengatakan bahwa kemungkinan adalah hal sentral yang ingin Anda pahami; dan pusat kemungkinan adalah parameter model. Jika Anda tahu parameter modelθ , Anda tahu bagaimana konteks + tindakan terkait dengan hadiah dan mudah untuk bertindak optimal.
Jadi bagaimana kita mengetahui parameter model ini sehingga saya bisa mendapatkan hadiah maksimum ??
Itu adalah pertanyaan penting untuk masalah bandit multi-bersenjata. Sebenarnya, ia memiliki dua bagian. Anda ingin mengetahui parameter model dengan tepat dengan menjelajahi semua jenis tindakan dalam konteks yang berbeda. Tetapi jika Anda sudah tahu tindakan mana yang baik untuk konteks tertentu, Anda ingin mengeksploitasi tindakan itu dan mendapatkan hadiah sebanyak mungkin. Jadi, jika Anda tidak yakin tentang parameter model Andaθ Anda mungkin ingin melakukan beberapa eksplorasi tambahan. Jika Anda cukup yakin tentang parameter model kamiθ , Anda juga cukup yakin tindakan mana yang harus diambil. Ini dikenal sebagai trade-off eksplorasi versus eksploitasi.
Anda belum mengatakan apa-apa tentang posterior ini
Kunci dari perilaku optimal ini adalah (tidak) kepastian Anda tentang parameter modelθ . Dan posterior mengatakan dengan tepat bahwa: mengingat semua hadiah sebelumnya yang kita dapatkan dari tindakan sebelumnya dalam konteks sebelumnya, seberapa banyak yang Anda ketahui tentangθ . Misalnya, jika Anda belum pernah ke luar, Anda tidak tahu seberapa sedihnya Anda saat hujan turun di kepala. Dengan kata lain, Anda sangat tidak pasti tentang parameter model ketidakbahagiaan saat hujan. Jika kadang-kadang Anda turun hujan, dengan dan tanpa payung, Anda dapat mulai mempelajari sesuatu tentang parameter model yang tidak jelas ini.
Sekarang apa yang Thomson Sampling sarankan untuk lakukan dengan semua ketidakpastian ini ??
Thomson Sampling menyarankan sesuatu yang sangat sederhana: cukup ambil parameter model acak dari posterior Anda, ambil tindakan dan amati apa yang terjadi. Misalnya, ketika Anda belum pernah ke luar sebelumnya, parameter ketidakbahagiaan-kapan-hujan-di-kepala bisa apa saja. Jadi kita pilih saja, kita anggap kita benar-benar tidak bahagia ketika hujan turun di kepala kita. Kami melihat hujan (konteks) jadi kami mengambil payung (tindakan) karena parameter model kami memberi tahu kami bahwa inilah caranya kami bisa mendapatkan hadiah maksimum. Dan memang, Anda mengamati bahwa Anda menjadi sedikit pemarah karena berjalan di tengah hujan dengan payung tetapi tidak benar-benar tidak bahagia. Kita belajar dari ini bahwa hujan + payung itu pemarah. Lain kali hujan Anda memilih lagi keyakinan acak tentang apa yang terjadi ketika hujan turun di kepala Anda. Kali ini mungkin itu tidak mengganggu Anda sama sekali. Namun, begitu Anda setengah jalan ke tujuan, Anda basah kuyup dan Anda tahu bahwa hujan tanpa payung benar-benar buruk. Ini mengurangi ketidakpastian Anda tentang ketidakbahagiaan-ketika-hujan-di-kepala, karena sekarang Anda tahu itu mungkin tinggi.
Ini terdengar sangat sederhana !!
Yap, tidak serumit itu. Bagian yang sulit adalah pengambilan sampel dari parameter model posterior. Mendapatkan dan mempertahankan distribusi di semua parameter model Anda, itu juga sesuai untuk masalah spesifik Anda sulit. Tapi ... itu pasti bisa dilakukan :).
sumber