Kapan saya harus menggunakan Penguatan Pembelajaran vs Kontrol PID?

Ketika merancang solusi untuk masalah-masalah seperti Lunar Lander di OpenAIGym , Reinforcement Learning adalah cara yang menggoda untuk memberikan agen kontrol tindakan yang memadai agar berhasil mendarat.

Tapi apa contoh di mana algoritma sistem kontrol, seperti pengontrol PID , akan melakukan pekerjaan yang memadai seperti, jika tidak lebih baik daripada, Penguatan Pembelajaran?

Pertanyaan-pertanyaan seperti ini sangat membantu dalam menjawab teori pertanyaan ini, tetapi tidak banyak membantu mengatasi komponen praktisnya.

Sebagai seorang insinyur Inteligensi Buatan, elemen apa dari domain masalah yang harus disarankan kepada saya bahwa kontroler PID tidak cukup untuk menyelesaikan masalah, dan algoritma Penguatan Pembelajaran seharusnya digunakan (atau sebaliknya)?

reinforcement-learning ai-design control-theory LihatDerekEngineer
sumber

Ide dasar yang saya miliki tentang PID mengatakan itu tidak mudah untuk dirancang. Ini memiliki banyak integral dan perbedaan yang terlibat. Jadi ini pada dasarnya ide yang sama seperti ketika Anda mengganti statistik dengan pendekatan ML. Sistem kontrol jelas tanpa cacat tetapi terlalu banyak bekerja.

DuttaA

sebenarnya itu tidak terlalu banyak pekerjaan, cukup standar di industri, menggunakan alat desain sistem modern seperti MATLAB Anda dapat menyetel PID atau pengontrol lain yang relatif mudah untuk memenuhi kebutuhan Anda. Pembelajaran penguatan tidak diterapkan dalam praktik karena membutuhkan banyak data dan tidak ada jaminan teoretis seperti yang ada untuk teori kontrol klasik. Omong-omong, desain contoller tidak melibatkan bekerja secara langsung dengan integral / diferensial, untuk sistem linear semua pekerjaan dilakukan dalam domain Laplace yang melibatkan manipulasi aljabar sederhana

Brale_

@ Bor_ tetapi masih melibatkan banyak pengetahuan teoritis .. Domain pengganti hanya menyederhanakan diferensial tetapi Anda perlu tahu cara mendesain sesuatu (kutub dan nol) sehingga sistem tidak menjadi tidak stabil. Cukup sulit untuk memvisualisasikan kepada saya bagaimana hal-hal itu benar-benar bekerja.

DuttaA

Sebagai pedoman praktis yang membantu saya dalam proyek-proyek sebelumnya, jika Anda tidak dapat menjelaskan menjelaskan kebijakan optimal (PID, RL, atau sebaliknya) dalam beberapa kalimat, PID akan sangat sulit. Apa kebijakan optimal untuk Pacman?

Jaden Travnik

Jawaban:

Saya pikir komentar pada dasarnya di jalur yang benar.

Kontroler PID berguna untuk menemukan kebijakan optimal dalam sistem dinamis terus-menerus, dan seringkali domain ini juga digunakan sebagai tolok ukur untuk RL, justru karena ada kebijakan optimal yang mudah didapat. Namun, dalam praktiknya, Anda jelas akan lebih memilih pengontrol PID untuk domain apa pun di mana Anda dapat dengan mudah mendesainnya: perilaku pengontrol dipahami dengan baik, sementara solusi RL seringkali sulit untuk ditafsirkan.

Di mana RL bersinar dalam tugas di mana kita tahu seperti apa perilaku yang baik (yaitu, kita tahu fungsi hadiah), dan kita tahu seperti apa input sensor (yaitu kita dapat secara lengkap dan akurat menggambarkan keadaan tertentu secara numerik), tetapi kita memiliki sedikit atau tidak tahu apa yang sebenarnya kita inginkan agen lakukan untuk mencapai penghargaan itu.

Ini contoh yang bagus:

Jika saya ingin membuat agen untuk melakukan manuver pesawat dari depan pesawat musuh dengan pola pergerakan yang diketahui di belakangnya, menggunakan bahan bakar paling sedikit, saya lebih suka menggunakan pengontrol PID .
Jika saya ingin membuat agen untuk mengendalikan pesawat dan menembak jatuh pesawat musuh dengan bahan bakar yang cukup untuk mendarat, tetapi tanpa deskripsi resmi tentang bagaimana pesawat musuh mungkin menyerang (mungkin seorang ahli manusia akan mengujinya dalam simulasi terhadap agen kami) , Saya lebih suka RL .

John Doucette
sumber