Pertanyaan yang diberi tag q-learning

18

Mengapa Q-Learning menggunakan epsilon-serakah selama pengujian?

Dalam makalah DeepMind tentang video game Deep Q-Learning untuk Atari (di sini ), mereka menggunakan metode epsilon-serakah untuk eksplorasi selama pelatihan. Ini berarti bahwa ketika suatu tindakan dipilih dalam pelatihan, tindakan tersebut dapat dipilih sebagai tindakan dengan nilai q tertinggi,...

17

Mengapa huruf Q dipilih dalam Q-learning?

Mengapa huruf Q dipilih atas nama Q-learning? Sebagian besar huruf dipilih sebagai singkatan, seperti singkatan kebijakan dan singkatan nilai. Tapi saya tidak berpikir Q adalah singkatan dari kata apa

terminology reinforcement-learning history q-learning

14

Apa perbedaan antara episode dan zaman dalam pembelajaran Q mendalam?

Saya mencoba memahami makalah terkenal "Bermain Atari dengan Pembelajaran Penguatan Jauh" ( pdf ). Saya tidak jelas tentang perbedaan antara zaman dan episode . Dalam algoritma , loop luar lebih dari episode , sedangkan pada gambar sumbu x diberi label zaman . Dalam konteks pembelajaran penguatan,...

neural-networks terminology reinforcement-learning q-learning

11

Bagaimana tepatnya menghitung Fungsi Kehilangan Q-Learning Jauh?

Saya ragu tentang bagaimana tepatnya fungsi kerugian dari Deep Q-Learning Network dilatih. Saya menggunakan jaringan feedforward 2 layer dengan lapisan output linear dan lapisan tersembunyi relu. Anggaplah saya memiliki 4 tindakan yang memungkinkan. Dengan demikian, output dari jaringan saya...

least-squares deep-learning loss-functions reinforcement-learning q-learning

9

Seberapa efisienkah Q-learning dengan Neural Networks ketika ada satu unit output per tindakan?

Latar belakang: Saya menggunakan pendekatan Q-value Neural Network dalam tugas pembelajaran penguatan saya. Pendekatannya persis sama dengan yang dijelaskan dalam pertanyaan ini , namun pertanyaannya sendiri berbeda. Dalam pendekatan ini jumlah output adalah jumlah tindakan yang bisa kita ambil....

machine-learning neural-networks reinforcement-learning q-learning

9

Bagaimana cara menafsirkan kurva survival model bahaya Cox?

Bagaimana Anda menginterpretasikan kurva survival dari model hazard proporsional cox? Dalam contoh mainan ini, anggaplah kita memiliki model hazard proporsional cox pada agevariabel dalam kidneydata, dan menghasilkan kurva survival. library(survival) fit <- coxph(Surv(time, status)~age,...

r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

9

Pembelajaran penguatan di lingkungan yang tidak stasioner [ditutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 7 hari yang lalu . T1: Apakah ada...

markov-process reinforcement-learning stationarity q-learning

9

Tinjauan Umum tentang Algoritma Pembelajaran Penguatan

Saat ini saya sedang mencari Tinjauan atas Algoritma Pembelajaran Penguatan dan mungkin klasifikasi mereka. Tetapi di sebelah Sarsa dan Q-Learning + Deep Q-Learning saya tidak dapat menemukan algoritma yang populer. Wikipedia memberi saya gambaran tentang Metode Pembelajaran Penguatan umum yang...

reinforcement-learning q-learning

8

Mengapa tidak ada probabilitas transisi dalam Q-Learning (reinforcement learning)?

Dalam pembelajaran penguatan, tujuan kami adalah untuk mengoptimalkan fungsi nilai-negara atau fungsi-nilai tindakan, yang didefinisikan sebagai berikut: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s =...

reinforcement-learning q-learning