Bandit multi-lengan bekerja dengan baik dalam situasi di mana Anda memiliki pilihan dan Anda tidak yakin mana yang akan memaksimalkan kesejahteraan Anda. Anda dapat menggunakan algoritme untuk beberapa situasi kehidupan nyata. Sebagai contoh, belajar bisa menjadi bidang yang baik:
Jika seorang anak mempelajari pertukangan kayu dan dia buruk dalam hal itu, algoritme akan memberitahunya bahwa dia mungkin harus melanjutkan. Jika dia pandai, algoritma akan memberitahunya untuk terus mempelajari bidang itu.
Berkencan juga merupakan bidang yang baik:
Anda seorang pria yang melakukan banyak 'usaha' dalam mengejar seorang wanita. Namun, usaha Anda pasti tidak disukai. Algoritme harus "sedikit" (atau sangat) mendorong Anda untuk melanjutkan.
Untuk situasi kehidupan nyata orang lain apa kita dapat menggunakan algoritma multi-arm bandit?
PS: Jika pertanyaannya terlalu luas, silakan tinggalkan komentar. Jika ada konsensus, saya akan menghapus pertanyaan saya.
Jawaban:
Saat Anda memainkan game Pokemon asli (Merah atau Biru dan Kuning) dan Anda tiba di kota Celadon, mesin slot roket Tim memiliki peluang berbeda. Multi-Arm Bandit di sana jika Anda ingin mengoptimalkan mendapatkan Porygon dengan sangat cepat.
Dalam keseriusan semua, orang berbicara tentang masalah dengan memilih variabel tuning dalam pembelajaran mesin. Terutama jika Anda memiliki banyak variabel, eksplorasi vs eksploitasi dibicarakan. Lihat seperti Spearmint atau bahkan makalah baru dalam topik ini yang menggunakan algoritma super sederhana untuk memilih parameter tuning (dan cara mengungguli teknik variabel tuning lainnya)
sumber
Mereka dapat digunakan dalam pengaturan desain penelitian pengobatan / biomedis. Sebagai contoh, saya percaya algoritma q-learning digunakan dalam Sequential, Multiple Assignment, Randomized Trial ( SMART percobaan ). Secara longgar, idenya adalah bahwa rejimen pengobatan beradaptasi secara optimal dengan kemajuan yang dibuat pasien. Jelas bagaimana ini mungkin yang terbaik untuk pasien individu, tetapi juga bisa lebih efisien dalam uji klinis acak.
sumber
Mereka digunakan dalam pengujian A / B dari iklan online, di mana iklan yang berbeda ditampilkan kepada pengguna yang berbeda dan berdasarkan hasil keputusan dibuat tentang iklan apa yang akan ditampilkan di masa depan. Ini dijelaskan dalam makalah yang bagus oleh peneliti Google Steven L. Scott .
sumber
Saya menanyakan pertanyaan yang sama pada Quora
Inilah jawabannya
sumber