Situs web kecerdasan buatan mendefinisikan pembelajaran di luar kebijakan dan di-kebijakan sebagai berikut: "Pelajar di luar kebijakan mempelajari nilai kebijakan optimal secara independen dari tindakan agen. Pembelajaran Q adalah pelajar di luar kebijakan. Pelajar di luar kebijakan mempelajari...