Penafian: Saya seorang ahli biologi, sangat menyesal untuk (mungkin) pertanyaan dasar yang diutarakan dalam istilah yang kasar.
Saya tidak yakin apakah saya harus mengajukan pertanyaan ini di sini atau di DS / SC, tetapi CS adalah yang terbesar dari tiga, jadi begini. (Setelah saya memposting, terpikir oleh saya bahwa Cross-Validated mungkin tempat yang lebih baik untuk itu, tetapi sayangnya).
Bayangkan ada agen, yang membuat keputusan biner. Dan sebuah lingkungan, yang, untuk masing-masing keputusan agen ("percobaan"), dapat memberikan penghargaan kepada agen atau tidak. Kriteria untuk menghargai keputusan agen tidaklah sederhana. Secara umum kriteria bersifat acak, tetapi mereka memiliki batasan, misalnya, lingkungan tidak pernah memberi hadiah lebih dari 3 kali untuk keputusan yang sama dan tidak pernah berganti keputusan yang diberi imbalan lebih dari 4 kali berturut-turut.
Urutan kriteria mungkin terlihat seperti ini
0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...
tapi tidak pernah
0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...
karena kriteria hadiah tidak dapat diulang lebih dari 3 kali.
Dalam kondisi ini, cukup mudah untuk merumuskan strategi yang harus dilakukan oleh pengamat ideal untuk memaksimalkan hadiah. Sesuatu di sepanjang garis
- putuskan secara acak
- jika Anda mendeteksi kriteria yang diulang 3 kali - putuskan berlawanan dari kriteria terakhir
- Jika Anda mendeteksi kriteria itu berganti 4 kali, putuskan sesuai dengan kriteria terakhir
Sekarang, bagian yang sulit. Sekarang kriteria pada setiap percobaan tidak hanya tergantung pada sejarah kriteria sebelumnya, tetapi juga pada sejarah keputusan agen, misalnya jika agen berganti pada lebih dari 8 dari 10 percobaan terakhir, hadiah keputusan yang sama dengan agen dibuat terakhir kali (seperti jika untuk mencegah agen dari berganti-ganti) dan jika agen mengulangi keputusan yang sama pada lebih dari 8 dari 10 percobaan terakhir, yaitu dia bias, buat kriteria yang berlawanan dengan bias. Prioritas sejarah kriteria daripada sejarah keputusan ditentukan sebelumnya, sehingga tidak pernah ada ambiguitas.
Urutan keputusan (d) dan kriteria (c) sekarang mungkin terlihat seperti ini
d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
↑ here criteria counteract bias in decisions
Saya tidak melihat cara sederhana untuk menemukan strategi memaksimalkan untuk agen. Tapi saya yakin pasti ada satu, dan semacam algoritma pembelajaran mesin pintar harus bisa mengidentifikasinya.
Pertanyaan saya bukan tentang bagaimana menyelesaikan masalah ini (walaupun saya akan senang jika Anda menyarankan solusi), tetapi lebih lanjut bagaimana jenis masalah ini disebut? Di mana saya bisa membacanya? Apakah ada solusi abstrak atau hanya simulasi yang dapat membantu? Secara umum, bagaimana saya, sebagai ahli biologi, dapat mendekati masalah jenis ini?
sumber
Jawaban:
Anda dapat mendekati masalah ini menggunakan Reinforcement Learning.
Buku klasik untuk ini adalah Sutton dan Barto:
Draf edisi kedua tersedia gratis: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html
Untuk membuat masalah Anda Markovian, tentukan setiap negara bagian sebagai vektor dari sepuluh keputusan terakhir. Tindakan Anda adalah 1 atau 0.
sumber