Jika Anda pernah diserang oleh laba-laba sekali kemungkinan Anda tidak akan pernah mendekati laba-laba lagi.
Dalam model jaringan saraf, memiliki pengalaman buruk dengan laba-laba akan sedikit mengurangi kemungkinan Anda mendekati laba-laba tergantung pada tingkat pembelajaran.
Ini tidak bagus. Bagaimana Anda bisa memprogram ketakutan ke dalam jaringan saraf, sehingga Anda tidak perlu ratusan contoh digigit laba-laba untuk mengabaikan laba-laba itu. Dan juga, itu tidak hanya menurunkan kemungkinan Anda akan memilih untuk mendekati laba-laba?
Jawaban:
Ada banyak pendekatan yang bisa Anda ambil untuk ini. Membuat analog buatan yang realistis untuk rasa takut sebagaimana diterapkan secara biologis pada hewan mungkin dilakukan, tetapi ada cukup banyak yang terlibat dalam respons rasa takut hewan nyata yang tidak akan berlaku dalam bot AI yang lebih sederhana yang tersedia sekarang. Misalnya, hewan yang memasuki kondisi ketakutan biasanya akan menggunakan hormon untuk memberi sinyal perubahan di seluruh tubuhnya, mendukung pengeluaran sumber daya dan pengambilan risiko ("berkelahi atau melarikan diri").
Dalam pembelajaran penguatan dasar, jaringan saraf tidak perlu secara langsung memutuskan untuk mengaktifkan "mode ketakutan". Sebagai gantinya, Anda dapat menggunakan beberapa desain dalam agen dan algoritma pembelajaran untuk membantu belajar dari peristiwa langka namun penting. Berikut ini beberapa ide:
Putar ulang pengalaman. Anda mungkin sudah melakukan ini dalam skenario Pacman, jika Anda menggunakan DQN atau yang serupa. Menyimpan transisi negara dan hadiah yang menyebabkan hadiah positif atau negatif yang besar, dan berulang kali belajar darinya harus mengimbangi kekhawatiran Anda
Penyapuan yang diprioritaskan. Anda dapat menggunakan perbedaan yang lebih besar yang dialami antara hadiah yang diprediksi dan yang sebenarnya untuk bias pengambilan sampel dari memori ulangan Anda terhadap peristiwa penting dan yang terkait erat dengannya.
Perencanaan Dengan model prediktif - mungkin berdasarkan transisi sampel (Anda dapat menggunakan kembali memori replay pengalaman untuk ini), atau mungkin jaringan prediksi transisi keadaan terlatih - maka Anda dapat melihat beberapa langkah ke depan dengan mensimulasikan. Ada hubungan yang kuat antara RL dan perencanaan masa depan juga, mereka adalah algoritma yang sangat mirip. Perbedaannya adalah negara dan tindakan mana yang dipertimbangkan, dan apakah mereka disimulasikan atau dialami. Replay pengalaman mengaburkan garis di sini - dapat dibingkai sebagai pembelajaran dari memori, atau meningkatkan prediksi untuk perencanaan. Perencanaan membantu dengan mengoptimalkan keputusan tanpa perlu mengulangi pengalaman sebanyak mungkin - kombinasi perencanaan dan pembelajaran bisa jauh lebih kuat daripada keduanya secara terpisah.
Pilihan tindakan eksplorasi yang lebih cerdas. Epsilon-serakah, di mana Anda mengambil tindakan serakah atau mengambil tindakan yang benar-benar acak, sepenuhnya mengabaikan seberapa banyak Anda mungkin telah belajar tentang tindakan alternatif dan manfaat relatifnya. Anda dapat menggunakan sesuatu seperti Batas Keyakinan Tinggi dengan agen berbasis nilai.
Dalam dunia deterministik, tingkatkan ukuran batch untuk pembelajaran dan perencanaan, karena Anda dapat percaya bahwa ketika transisi dipelajari sekali, Anda tahu segalanya tentang hal itu.
Anda perlu bereksperimen di setiap lingkungan. Anda dapat membuat agen pembelajaran yang lebih konservatif dalam mengeksplorasi area dekat hadiah rendah. Namun, jika lingkungannya sedemikian rupa sehingga perlu mengambil risiko untuk mendapatkan hadiah terbaik (yang sering terjadi dalam permainan) maka mungkin tidak optimal dalam hal waktu belajar untuk memiliki agen "pemalu". Misalnya dalam contoh Pacman Anda, kadang-kadang hantu harus dihindari, kadang-kadang mereka harus dikejar. Jika agen tersebut awalnya belajar keengganan yang kuat, mungkin perlu waktu lama untuk mengatasinya dan belajar untuk mengejarnya setelah memakan power-up.
Sebagai contoh laba-laba Anda, sebagai pembangun percobaan maka Anda tahu bahwa gigitannya buruk setiap waktu dan bahwa agen harus menghindarinya sebanyak mungkin. Bagi kebanyakan algoritma RL, tidak ada pengetahuan seperti itu, kecuali diperoleh melalui pengalaman. Model dunia MDP tidak perlu cocok dengan akal sehat, mungkin gigitan laba-laba buruk (-10 hadiah) 90% dari waktu dan baik 10% dari waktu (+1000 hadiah). Agen hanya dapat menemukan ini dengan digigit beberapa kali. . . RL biasanya tidak memulai dengan sistem apa pun untuk membuat asumsi tentang hal semacam ini, dan mustahil untuk membuat aturan umum tentang semua MDP yang mungkin. Sebagai gantinya, untuk sistem RL dasar, Anda dapat mempertimbangkan memodifikasi hiperparameter atau berfokus pada peristiwa utama seperti yang disarankan di atas. Di luar sistem RL dasar mungkin ada manfaat dalam mereplikasi hal-hal lain,
sumber
Saya pikir ada 2 cara untuk mewujudkan hal ini: 1) secara eksplisit memprogram ketakutan sebagai batasan atau parameter dalam beberapa ekspresi logis, atau 2) memanfaatkan satu set besar data pelatihan untuk mengajarkan ketakutan.
Pikirkan tentang permainan Pacman dasar - apakah Pacman takut hantu atau tidak takut mereka sulit untuk mengatakannya, tetapi mereka ADALAH hantu dan Pacman menghindarinya jadi saya pikir aman kita bisa menggunakan ini sebagai contoh dasar "ketakutan". Karena, dalam game ini, fear = avoidance, Anda secara logis dapat memprogram penghindaran menjadi semacam jarak. Saya mencoba ini dengan pembelajaran penguatan Pacman. Saya mencoba mengatur jarak 5 kotak ke hantu dan kapan saja Pacman bisa melihat hantu dalam 5 kotak, dia akan bergerak ke arah yang berbeda. Apa yang saya temukan adalah bahwa sementara Pacman akan berusaha menghindari hantu, dia tidak tahu strategi (atau memiliki kecerdasan). Pacman hanya akan pindah dari hantu sampai dia masuk kotak.
Maksud saya adalah Anda dapat memprogram jaringan Anda untuk menghindari laba-laba agar tidak mendapatkan bit, tetapi tanpa pelatihan, Anda hanya akan membuat parameter dasar yang dapat menyebabkan masalah jika ada 100 laba-laba super agresif mendatangi Anda! Cara yang lebih baik adalah dengan menggunakan beberapa logika dasar untuk menghindari laba-laba, tetapi kemudian latih jaringan untuk dihadiahkan laba-laba yang lebih baik dihindari.
Sekarang, ada banyak situasi ketakutan sehingga satu contoh dengan Pacman ini belum tentu berlaku untuk semua ... Hanya mencoba untuk memberikan beberapa wawasan dalam pengalaman saya dengan mengajar rasa takut dengan pembelajaran penguatan di Pacman.
sumber
Ketakutan semacam ini adalah respons irasional (insentif negatif besar dalam menanggapi risiko kecil). Ketakutan pemodelan perlu memodelkan faktor "kotor" yang terkait dengan, misalnya, laba-laba sehingga respons yang biasanya tidak proporsional akan terjadi. Faktor "kotor" dapat dimanifestasikan dalam banyak bentuk lain untuk memperbesar respons terhadap pengalaman yang sebelumnya tidak menyenangkan, meskipun tidak terlalu berbahaya. Ketakutan seperti itu juga dapat terinspirasi oleh desas-desus (pikirkan histeria yang disebabkan oleh berita yang sensasional). NN biasanya hanya merespons minimal terhadap risiko minimal.
sumber
Saya akan menyarankan agar agen mempertimbangkan pelajaran dari peristiwa tertentu berdasarkan beratnya konsekuensi dari peristiwa itu terjadi. Misalnya. Mintalah ia mengembangkan model ancaman seperti yang biasanya disusun di bidang Keamanan Informasi. Risiko tinggi tetapi probabilitas rendah adalah sesuatu yang dapat dipertanggungjawabkan dan dinilai.
Mencoba meniru ketakutan manusia secara langsung adalah hal yang konyol, Anda mungkin akan berakhir dengan AI yang memiliki fobia jika Anda berhasil terlalu baik.
sumber