Mengapa huruf Q dipilih atas nama Q-learning?
Sebagian besar huruf dipilih sebagai singkatan, seperti singkatan kebijakan dan singkatan nilai. Tapi saya tidak berpikir Q adalah singkatan dari kata apa pun.v
Mengapa huruf Q dipilih atas nama Q-learning?
Sebagian besar huruf dipilih sebagai singkatan, seperti singkatan kebijakan dan singkatan nilai. Tapi saya tidak berpikir Q adalah singkatan dari kata apa pun.v
Jawaban:
Maaf mengecewakan semua orang, tapi Q tidak tahan untuk apa pun :)
Q-learning diusulkan oleh Watkins dalam tesis PhD-nya pada tahun 1989, lihat hal.96. Q dalam persamaan pada halaman itu diperbarui dengan cara tertentu pada setiap langkah. Q adalah pengembalian yang diharapkan dari tindakan pada kondisi tertentu, lihat definisi Q pada hal.46. Pengembalian dalam arti teori ekonomi atau permainan, yaitu diskon probabilitas tertimbang, bukan istilah ilmu komputer seperti pengembalian dari suatu fungsi.
Perhatikan, bagaimana dia sudah menggunakan P untuk probabilitas dan R untuk hadiah, jadi dia meraih Q untuk pengembalian. Itu dia. Tidak ada arti yang lebih dalam untuk pilihan huruf Q.
sumber
Alasan Q-Learning disebut demikian karena menggunakan nilai Q untuk membentuk perkiraan itu. Aturan pembelajaran yang biasa adalah, dan harus jelas mengapa ini disebut Q-Learning.Q(st,at)←Q(st,at)+α(rt+γ×maxaQ(st+1,a)−Q(st,at))
Tetapi pertanyaan aktual dalam pandangan saya adalah mengapa Q-Learning disebut demikian. Meskipun sepertinya tidak ada jawaban yang memuaskan, tautan ini menyebutkan bahwa Andrew Barto , yang merupakan salah satu pendiri Modern Reinforcement Learning, berpendapat bahwa adalah singkatan dari Quality, disebut demikian karena itu mencirikan seberapa baik hasil dari menarik lengan akan menjadi.Q
sumber