Prediksi urutan semu-acak

9

Penafian: Saya seorang ahli biologi, sangat menyesal untuk (mungkin) pertanyaan dasar yang diutarakan dalam istilah yang kasar.

Saya tidak yakin apakah saya harus mengajukan pertanyaan ini di sini atau di DS / SC, tetapi CS adalah yang terbesar dari tiga, jadi begini. (Setelah saya memposting, terpikir oleh saya bahwa Cross-Validated mungkin tempat yang lebih baik untuk itu, tetapi sayangnya).

Bayangkan ada agen, yang membuat keputusan biner. Dan sebuah lingkungan, yang, untuk masing-masing keputusan agen ("percobaan"), dapat memberikan penghargaan kepada agen atau tidak. Kriteria untuk menghargai keputusan agen tidaklah sederhana. Secara umum kriteria bersifat acak, tetapi mereka memiliki batasan, misalnya, lingkungan tidak pernah memberi hadiah lebih dari 3 kali untuk keputusan yang sama dan tidak pernah berganti keputusan yang diberi imbalan lebih dari 4 kali berturut-turut.

Urutan kriteria mungkin terlihat seperti ini

0 0 0 1 0 1 0 0 1 1 1 0 1 1 0 0 1 0 ...

tapi tidak pernah

0 0 0 1 0 1 0 0 1 1 1 1 1 1 0 0 1 0 ...

karena kriteria hadiah tidak dapat diulang lebih dari 3 kali.

Dalam kondisi ini, cukup mudah untuk merumuskan strategi yang harus dilakukan oleh pengamat ideal untuk memaksimalkan hadiah. Sesuatu di sepanjang garis

  1. putuskan secara acak
  2. jika Anda mendeteksi kriteria yang diulang 3 kali - putuskan berlawanan dari kriteria terakhir
  3. Jika Anda mendeteksi kriteria itu berganti 4 kali, putuskan sesuai dengan kriteria terakhir

Sekarang, bagian yang sulit. Sekarang kriteria pada setiap percobaan tidak hanya tergantung pada sejarah kriteria sebelumnya, tetapi juga pada sejarah keputusan agen, misalnya jika agen berganti pada lebih dari 8 dari 10 percobaan terakhir, hadiah keputusan yang sama dengan agen dibuat terakhir kali (seperti jika untuk mencegah agen dari berganti-ganti) dan jika agen mengulangi keputusan yang sama pada lebih dari 8 dari 10 percobaan terakhir, yaitu dia bias, buat kriteria yang berlawanan dengan bias. Prioritas sejarah kriteria daripada sejarah keputusan ditentukan sebelumnya, sehingga tidak pernah ada ambiguitas.

Urutan keputusan (d) dan kriteria (c) sekarang mungkin terlihat seperti ini

d: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 0 0 0 1 1 0 1 0 1 0 ...
c: 1 0 1 0 0 0 1 1 0 0 1 1 1 1 1 1 1 1 0 1 0 0 1 1 0 0 0 1 0 ...
                       ↑ here criteria counteract bias in decisions  

Saya tidak melihat cara sederhana untuk menemukan strategi memaksimalkan untuk agen. Tapi saya yakin pasti ada satu, dan semacam algoritma pembelajaran mesin pintar harus bisa mengidentifikasinya.

Pertanyaan saya bukan tentang bagaimana menyelesaikan masalah ini (walaupun saya akan senang jika Anda menyarankan solusi), tetapi lebih lanjut bagaimana jenis masalah ini disebut? Di mana saya bisa membacanya? Apakah ada solusi abstrak atau hanya simulasi yang dapat membantu? Secara umum, bagaimana saya, sebagai ahli biologi, dapat mendekati masalah jenis ini?

Sergey Antopolskiy
sumber
2
lihat misalnya analisis deret waktu autoregresif . akan membantu jika Anda lebih detail tentang data input. apakah itu dari biologi? ada teknik std untuk masalah std. JST berulang (jaring saraf tiruan) juga menangani ini. juga mungkin mampir oleh Computer Science Chat
vzn
2
Model Markov tersembunyi mungkin merupakan alat yang berguna.
Raphael
1
Anda mungkin ingin membaca tentang Follow-The-Leader dan varian lainnya - onlineprediction.net/?n=Main.FollowTheLeader
MotiN
2
Saya pikir apa yang Anda maksudkan dekat dengan apa yang orang-orang di ML sebut Reinforcement Learning .
Kaveh
1
ps: Anda mungkin ingin mencoba memposting di Cross Validated jika Anda tidak mendapatkan jawaban di sini setelah beberapa waktu.
Kaveh

Jawaban:

1

Anda dapat mendekati masalah ini menggunakan Reinforcement Learning.

Buku klasik untuk ini adalah Sutton dan Barto:

Draf edisi kedua tersedia gratis: https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html

Untuk membuat masalah Anda Markovian, tentukan setiap negara bagian sebagai vektor dari sepuluh keputusan terakhir. Tindakan Anda adalah 1 atau 0.

Juan Leni
sumber