Saya ragu tentang bagaimana tepatnya fungsi kerugian dari Deep Q-Learning Network dilatih. Saya menggunakan jaringan feedforward 2 layer dengan lapisan output linear dan lapisan tersembunyi relu.
- Anggaplah saya memiliki 4 tindakan yang memungkinkan. Dengan demikian, output dari jaringan saya untuk keadaan saat ini adalah . Untuk membuatnya lebih konkret, mari kita asumsikan
- Sekarang saya mengambil tindakan sesuai dengan nilai yaitu tindakan ke-3, dan mencapai status baru .
- Selanjutnya, saya menghitung lintasan maju dengan keadaan dan katakanlah saya mendapatkan nilai-nilai berikut pada lapisan keluaran . Juga katakanlah hadiah , dan .
Apakah kerugian diberikan oleh:
ATAU
ATAU
Terima kasih, maaf saya harus menulis ini dengan cara yang sangat mendasar ... Saya bingung dengan semua notasi. (Saya pikir jawaban yang benar adalah yang kedua ...)
Jawaban:
Setelah meninjau persamaan beberapa kali lagi. Saya pikir kerugian yang benar adalah sebagai berikut:
Alasan saya adalah bahwa aturan pembaruan q-learning untuk kasus umum hanya memperbarui nilai-q untuk tertentu pasangan .state,action
Persamaan ini berarti bahwa pembaruan hanya terjadi untuk satu tertentu pasangan dan untuk jaringan q saraf yang berarti kerugian dihitung hanya untuk satu unit output spesifik yang sesuai dengan tertentu .state,action action
Dalam contoh yang disediakan dan adalah .Q(s,a)=4.3 target r+γmaxa∗Q(s′,a∗)=11.1
sumber
Mungkin tidak akan menjadi masalah kecuali Anda memiliki ruang aksi yang besar.
Jika fungsi kerugian Anda adalah MSE , maka kerugian yang dihitung adalah setengah dari kerugian spesifik istilah (jika ruang tindakan = 2). Ini mungkin penting jika ruang tindakan Anda besar dan dapat memperlambat pelatihan karena kemiringan fungsi kerugian dikurangi dengan faktor yang sama dengan ruang tindakan masalah Anda.
Seperti yang Anda sebutkan, hanya nilai q yang sesuai dengan tindakan saat ini yang dilakukan yang diperbarui. Oleh karena itu, pembilang kerugian tetap konstan.
Dengan asumsi ruang tindakan 2 (nilai yang mungkin: {0,1}).
Jika tindakan yang dipilih adalah
1
maka nilai0
th tetap tidak berubah karena itu, membatalkan dan sebaliknya. Dengan demikian, semua ketentuan dibatalkan kecuali untuk tindakan yang saat ini dilakukan. Namun, penyebut akan terus meningkat sesuai ruang aksi.Untuk ruang tindakan
n = 2
,sumber