Dalam makalah DeepMind tahun 2015 tentang pembelajaran penguatan dalam, ia menyatakan bahwa "Upaya sebelumnya untuk menggabungkan RL dengan jaringan saraf sebagian besar gagal karena pembelajaran yang tidak stabil". Makalah ini kemudian mencantumkan beberapa penyebabnya, berdasarkan korelasi antar pengamatan.
Tolong bisakah seseorang menjelaskan apa artinya ini? Apakah itu bentuk overfitting, di mana jaringan saraf mempelajari beberapa struktur yang ada dalam pelatihan, tetapi mungkin tidak hadir pada pengujian? Atau apakah itu berarti sesuatu yang lain?
Makalah ini dapat ditemukan: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html
Dan bagian yang saya coba pahami adalah:
Pembelajaran penguatan dikenal tidak stabil atau bahkan berbeda ketika pendekatan fungsi nonlinier seperti jaringan saraf digunakan untuk mewakili fungsi aksi-nilai (juga dikenal sebagai Q) fungsi. Ketidakstabilan ini memiliki beberapa penyebab: korelasi hadir dalam urutan pengamatan, fakta bahwa pembaruan kecil untuk Q dapat secara signifikan mengubah kebijakan dan karenanya mengubah distribusi data, dan korelasi antara nilai-nilai tindakan dan nilai target.
Kami mengatasi ketidakstabilan ini dengan varian novel Q-learning, yang menggunakan dua gagasan utama. Pertama, kami menggunakan mekanisme yang diilhami secara biologis yang disebut replay pengalaman yang mengacak data, sehingga menghilangkan korelasi dalam urutan pengamatan dan memperlancar perubahan dalam distribusi data. Kedua, kami menggunakan pembaruan berulang yang menyesuaikan nilai tindakan (Q) terhadap nilai target yang hanya diperbarui secara berkala, sehingga mengurangi korelasi dengan target.
Jawaban:
Masalah utama adalah bahwa, seperti di banyak bidang lain, DNN mungkin sulit untuk dilatih. Di sini, satu masalah adalah korelasi data input: jika Anda berpikir tentang video game (mereka benar-benar menggunakannya untuk menguji algoritme mereka), Anda dapat membayangkan bahwa tangkapan layar yang diambil selangkah demi selangkah sangat berkorelasi: permainan berkembang "terus menerus". Itu, untuk NNs, bisa menjadi masalah: melakukan banyak iterasi penurunan gradien pada input yang sama dan berkorelasi dapat menyebabkan overfit mereka dan / atau jatuh ke minimum lokal. Inilah mengapa mereka menggunakan replay pengalaman: mereka menyimpan serangkaian "snapshots" permainan, kemudian mengocoknya, dan memilih mereka beberapa langkah kemudian untuk melakukan pelatihan. Dengan cara ini, data tidak lagi berkorelasi. Kemudian, mereka memperhatikan bagaimana selama pelatihan nilai Q (diprediksi oleh NN) dapat mengubah kebijakan yang sedang berlangsung,
sumber