Ketika merancang solusi untuk masalah-masalah seperti Lunar Lander di OpenAIGym , Reinforcement Learning adalah cara yang menggoda untuk memberikan agen kontrol tindakan yang memadai agar berhasil mendarat.
Tapi apa contoh di mana algoritma sistem kontrol, seperti pengontrol PID , akan melakukan pekerjaan yang memadai seperti, jika tidak lebih baik daripada, Penguatan Pembelajaran?
Pertanyaan-pertanyaan seperti ini sangat membantu dalam menjawab teori pertanyaan ini, tetapi tidak banyak membantu mengatasi komponen praktisnya.
Sebagai seorang insinyur Inteligensi Buatan, elemen apa dari domain masalah yang harus disarankan kepada saya bahwa kontroler PID tidak cukup untuk menyelesaikan masalah, dan algoritma Penguatan Pembelajaran seharusnya digunakan (atau sebaliknya)?
sumber
Jawaban:
Saya pikir komentar pada dasarnya di jalur yang benar.
Kontroler PID berguna untuk menemukan kebijakan optimal dalam sistem dinamis terus-menerus, dan seringkali domain ini juga digunakan sebagai tolok ukur untuk RL, justru karena ada kebijakan optimal yang mudah didapat. Namun, dalam praktiknya, Anda jelas akan lebih memilih pengontrol PID untuk domain apa pun di mana Anda dapat dengan mudah mendesainnya: perilaku pengontrol dipahami dengan baik, sementara solusi RL seringkali sulit untuk ditafsirkan.
Di mana RL bersinar dalam tugas di mana kita tahu seperti apa perilaku yang baik (yaitu, kita tahu fungsi hadiah), dan kita tahu seperti apa input sensor (yaitu kita dapat secara lengkap dan akurat menggambarkan keadaan tertentu secara numerik), tetapi kita memiliki sedikit atau tidak tahu apa yang sebenarnya kita inginkan agen lakukan untuk mencapai penghargaan itu.
Ini contoh yang bagus:
Jika saya ingin membuat agen untuk melakukan manuver pesawat dari depan pesawat musuh dengan pola pergerakan yang diketahui di belakangnya, menggunakan bahan bakar paling sedikit, saya lebih suka menggunakan pengontrol PID .
Jika saya ingin membuat agen untuk mengendalikan pesawat dan menembak jatuh pesawat musuh dengan bahan bakar yang cukup untuk mendarat, tetapi tanpa deskripsi resmi tentang bagaimana pesawat musuh mungkin menyerang (mungkin seorang ahli manusia akan mengujinya dalam simulasi terhadap agen kami) , Saya lebih suka RL .
sumber