Tujuannya adalah untuk merancang komponen optimisasi kebijakan proksimal yang memiliki batasan spesifik pada ruang tindakan yang bergantung pada aturan yang digerakkan oleh negara, menggunakan kerangka kerja seperti Tensorforce.
Opsi Desain Tercantum dalam Pertanyaan
Opsi-opsi ini tercantum di sini untuk referensi cepat ketika membaca analisis awal di bawah ini.
- Ubah ruang tindakan di setiap langkah, tergantung pada internal_state. Saya menganggap ini omong kosong.
- Jangan lakukan apa pun: biarkan model memahami bahwa memilih tindakan yang tidak tersedia tidak berdampak.
- Do -almost- nothing: berdampak sedikit negatif pada hadiah saat model memilih tindakan yang tidak tersedia.
- Bantu model: dengan memasukkan bilangan bulat ke dalam ruang keadaan / pengamatan yang menginformasikan model apa nilai internal_state + poin-poin 2 atau 3
Analisis Awal
Memang masuk akal untuk mengubah ruang tindakan untuk setiap gerakan. Itu, pada kenyataannya, representasi yang tepat untuk masalah seperti yang dinyatakan dan cara normal manusia bermain game dan cara komputer mengalahkan manusia di Catur dan Go.
Tidak masuk akalnya gagasan ini hanyalah sebuah artefak dari kemajuan sepanjang peta jalan proyek Tensorforce dan kemajuan sepanjang teori penguatan, keduanya muda dalam gambaran yang lebih besar. Membaca dokumentasi Tensorforce dan FAQ, tampaknya tidak ada kerangka kerja yang dirancang untuk memasukkan mesin aturan untuk menentukan ruang tindakan. Ini bukan kelemahan dari open source. Tampaknya tidak ada makalah yang menyediakan teori atau mengusulkan algoritma untuk pengambilan keputusan rantai Markov yang dikondisikan oleh aturan.
Opsi do-nothing adalah opsi yang sesuai dengan strategi yang tersedia saat ini diwakili dalam literatur. The do-nyaris-tidak mungkin adalah pendekatan yang akan menghasilkan perilaku yang diinginkan lebih dapat diandalkan dan mungkin lebih langsung.
Masalah dengan konsep membantu model adalah bahwa itu tidak sekuat ide daripada memperluas model. Dalam open source, ini akan dilakukan dengan memperluas kelas-kelas yang mewakili model, yang akan memerlukan beberapa pekerjaan teoritis sebelum pengkodean ke
a. Represent rule-conditioned learning in nomenclature
b. Represent convergence mathematically using the new nomenclature
c. Determining a method of convergence
d. Proving convergence
e. Rechecking
f. Defining a smooth and efficient algorithm
g. Providing PAC learning information for planning
f. Peer review
g. Extending the classes of the library
h. Proof of concept with the current problem above
i. Additional cases and metrics comparing the approach with the others
j. Extending the library flexibility to support more such dev
Perpanjangan sistem pembelajaran untuk mencakup kasus yang dibatasi oleh aturan adalah ide bagus untuk tesis PhD dan mungkin terbang di laboratorium penelitian sebagai proposal proyek dengan banyak aplikasi yang memungkinkan. Jangan biarkan semua langkah menghalangi peneliti. Mereka pada dasarnya adalah daftar langkah-langkah untuk tesis PhD atau proyek laboratorium AI yang didanai.
Untuk solusi jangka pendek, membantu model dapat bekerja, tetapi itu bukan strategi yang tepat untuk memajukan ide-ide AI di sepanjang jalur pembelajaran penguatan. Sebagai solusi jangka pendek untuk masalah tertentu mungkin dapat bekerja dengan baik. Gagasan do-hampir-tidak mungkin lebih masuk akal, karena cocok dengan bukti konvergensi yang mengarah pada implementasi tertentu yang Tensorforce mungkin gunakan.
Mengganti namanya dari melakukan-hampir-tidak-menjadi-konvergensi dapat membantu mengembangkan perspektif yang benar sebelum mencobanya. Anda mungkin menemukan bahwa Anda harus menipiskan bantuan saat Anda mendekati konvergensi untuk menghindari overshoot seperti halnya dengan tingkat pembelajaran.
Biasanya, serangkaian tindakan yang dapat dilakukan agen tidak berubah dari waktu ke waktu, tetapi beberapa tindakan dapat menjadi tidak mungkin di negara yang berbeda (misalnya, tidak setiap gerakan mungkin dilakukan di posisi mana pun dari permainan TicTacToe).
Lihatlah sebagai contoh di pice of code https://github.com/haje01/gym-tictactoe/blob/master/examples/base_agent.py :
sumber