Latar belakang: Saya menggunakan pendekatan Q-value Neural Network dalam tugas pembelajaran penguatan saya. Pendekatannya persis sama dengan yang dijelaskan dalam pertanyaan ini , namun pertanyaannya sendiri berbeda. Dalam pendekatan ini jumlah output adalah jumlah tindakan yang bisa kita ambil....