Pertanyaan yang diberi tag reinforcement-learning

12

Kapan metode Monte Carlo lebih disukai daripada yang perbedaan temporal?

Saya telah melakukan banyak penelitian tentang Penguatan Pembelajaran akhir-akhir ini. Saya mengikuti Pembelajaran Penguatan Sutton & Barto : Pengantar untuk sebagian besar dari ini. Saya tahu apa itu Proses Keputusan Markov dan bagaimana pembelajaran Dynamic Programming (DP), Monte Carlo dan...

monte-carlo reinforcement-learning temporal-difference

12

Bagaimana menyesuaikan bobot ke dalam nilai-Q dengan pendekatan fungsi linear

Dalam pembelajaran penguatan, pendekatan fungsi linear sering digunakan ketika ruang keadaan besar hadir. (Ketika mencari tabel menjadi tidak layak.) Bentuk nilai dengan pendekatan fungsi linear diberikan olehQ−Q-Q- Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,Sebuah)=w1f1(s,Sebuah)+w2f2(s,Sebuah)+⋯,Q(s,a) =...

machine-learning feature-selection reinforcement-learning

12

Mengapa replay pengalaman membutuhkan algoritma off-policy?

Dalam makalah yang memperkenalkan DQN " Bermain Atari dengan Deep Reinforcement Learning ", disebutkan: Perhatikan bahwa ketika belajar dengan replay pengalaman, perlu untuk belajar di luar kebijakan (karena parameter kami saat ini berbeda dengan yang digunakan untuk menghasilkan sampel), yang...

reinforcement-learning

12

Menerjemahkan masalah pembelajaran mesin ke dalam kerangka regresi

Misalkan saya memiliki panel variabel penjelas , untuk , , serta vektor variabel dependen hasil biner . Jadi hanya diamati pada waktu akhir dan tidak pada waktu sebelumnya. Kasus yang sepenuhnya umum adalah memiliki beberapa untuk untuk setiap unit pada setiap waktu , tetapi mari kita fokus pada...

regression machine-learning reinforcement-learning

11

Apa hubungan antara teori permainan dan pembelajaran penguatan?

Saya tertarik pada Pembelajaran (Jauh) Penguatan (RL) . Sebelum menyelam ke bidang ini, haruskah saya mengambil kursus di Game Theory (GT) ? Bagaimana hubungan GT dan RL

deep-learning reinforcement-learning game-theory

11

Apa kebijakan peluncuran di koran AlphaGo?

Makalahnya ada di sini . Kebijakan peluncuran ... adalah kebijakan softmax linier yang didasarkan pada fitur berbasis pola yang cepat, dihitung secara lokal, ... Saya tidak mengerti apa itu kebijakan peluncuran, dan bagaimana kaitannya dengan jaringan kebijakan memilih langkah. Adakah...

machine-learning monte-carlo reinforcement-learning games

11

Q-learning dengan Neural Network sebagai perkiraan fungsi

Saya mencoba menggunakan Neural Network untuk memperkirakan nilai-Q di Q-learning seperti pada Pertanyaan tentang Q-Learning menggunakan Neural Networks . Seperti yang disarankan dalam jawaban pertama, saya menggunakan fungsi aktivasi linier untuk lapisan output, sementara saya masih menggunakan...

neural-networks reinforcement-learning

11

Bagaimana tepatnya menghitung Fungsi Kehilangan Q-Learning Jauh?

Saya ragu tentang bagaimana tepatnya fungsi kerugian dari Deep Q-Learning Network dilatih. Saya menggunakan jaringan feedforward 2 layer dengan lapisan output linear dan lapisan tersembunyi relu. Anggaplah saya memiliki 4 tindakan yang memungkinkan. Dengan demikian, output dari jaringan saya...

least-squares deep-learning loss-functions reinforcement-learning q-learning

10

Bisakah model P (Y | X) dilatih melalui stochastic gradient descent dari sampel non-iid P (X) dan sampel iid dari P (Y | X)?

Ketika melatih model parameter (misalnya untuk memaksimalkan kemungkinan) melalui penurunan gradien stokastik pada beberapa set data, umumnya diasumsikan bahwa sampel pelatihan diambil di awal dari distribusi data pelatihan. Jadi, jika tujuannya adalah untuk memodelkan distribusi bersama , maka...

machine-learning conditional-probability reinforcement-learning gradient-descent

10

Mengapa algoritma iterasi kebijakan menyatu dengan fungsi kebijakan dan nilai yang optimal?

Saya membaca catatan kuliah Andrew Ng tentang pembelajaran penguatan, dan saya mencoba memahami mengapa iterasi kebijakan digabungkan ke fungsi nilai optimal dan kebijakan optimal .V∗V∗V^*π∗π∗\pi^* Ingat iterasi kebijakan adalah: Inisialisasi π secara acakUlangi {L e t V : = Vπ \ untuk kebijakan...

reinforcement-learning policy-iteration

9

Mengapa (dan kapan) seseorang harus mempelajari fungsi hadiah dari sampel dalam pembelajaran penguatan?

Dalam pembelajaran penguatan, kami memiliki fungsi hadiah yang menginformasikan agen seberapa baik tindakan dan negara saat ini dilakukan. Dalam beberapa pengaturan umum fungsi hadiah adalah fungsi dari tiga variabel: Keadaan saat iniSSS Tindakan saat ini pada kondisi saat iniπ(s)=aπ(s)=a\pi(s) =...

machine-learning reinforcement-learning

9

Tinjauan Umum tentang Algoritma Pembelajaran Penguatan

Saat ini saya sedang mencari Tinjauan atas Algoritma Pembelajaran Penguatan dan mungkin klasifikasi mereka. Tetapi di sebelah Sarsa dan Q-Learning + Deep Q-Learning saya tidak dapat menemukan algoritma yang populer. Wikipedia memberi saya gambaran tentang Metode Pembelajaran Penguatan umum yang...

reinforcement-learning q-learning

9

Pembelajaran penguatan di lingkungan yang tidak stasioner [ditutup]

Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 7 hari yang lalu . T1: Apakah ada...

markov-process reinforcement-learning stationarity q-learning

9

Pembelajaran Penguatan pada Data Historis

Saya telah bekerja mempelajari kebijakan komunikasi optimal untuk pelanggan (pemberitahuan mana yang harus dikirim, berapa yang harus dikirim dan kapan harus dikirim). Saya memiliki data historis pemberitahuan sebelumnya yang dikirim (dengan cap waktu) dan kinerjanya. Sedang mencoba menerapkan RL...

reinforcement-learning

9

Bagaimana cara menafsirkan kurva survival model bahaya Cox?

Bagaimana Anda menginterpretasikan kurva survival dari model hazard proporsional cox? Dalam contoh mainan ini, anggaplah kita memiliki model hazard proporsional cox pada agevariabel dalam kidneydata, dan menghasilkan kurva survival. library(survival) fit <- coxph(Surv(time, status)~age,...

r survival cox-model likelihood machine-learning deep-learning generative-models machine-learning reinforcement-learning q-learning regression multicollinearity convergence beta-distribution bernoulli-distribution machine-learning self-study pattern-recognition neural-networks stochastic-processes linear

9

Adakah contoh kode algoritma REINFORCE yang diajukan oleh Williams?

Apakah ada yang tahu contoh Algoritma Williams yang diusulkan dalam Makalah "Kelas algoritma estimasi gradien untuk pembelajaran penguatan dalam jaringan saraf"

reinforcement-learning

9

Seberapa efisienkah Q-learning dengan Neural Networks ketika ada satu unit output per tindakan?

Latar belakang: Saya menggunakan pendekatan Q-value Neural Network dalam tugas pembelajaran penguatan saya. Pendekatannya persis sama dengan yang dijelaskan dalam pertanyaan ini , namun pertanyaannya sendiri berbeda. Dalam pendekatan ini jumlah output adalah jumlah tindakan yang bisa kita ambil....

machine-learning neural-networks reinforcement-learning q-learning

8

Apakah kebijakan selalu deterministik dalam pembelajaran penguatan?

Dalam pembelajaran penguatan, apakah suatu kebijakan selalu deterministik, atau apakah itu suatu distribusi probabilitas atas tindakan (dari mana kami mengambil sampel)? Jika kebijakan bersifat deterministik, mengapa bukan fungsi nilai, yang didefinisikan pada kondisi tertentu untuk kebijakan...

reinforcement-learning deterministic-policy stochastic-policy

8

Mengapa tidak ada probabilitas transisi dalam Q-Learning (reinforcement learning)?

Dalam pembelajaran penguatan, tujuan kami adalah untuk mengoptimalkan fungsi nilai-negara atau fungsi-nilai tindakan, yang didefinisikan sebagai berikut: Vπs=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]Vsπ=∑p(s′|s,π(s))[r(s′|s,π(s))+γVπ(s′)]=Eπ[r(s′|s,a)+γVπ(s′)|s0=s]V^{\pi}_s =...

reinforcement-learning q-learning

8

Perbedaan antara pemrograman dinamis dan pembelajaran perbedaan temporal dalam pembelajaran penguatan

Dalam pembelajaran penguatan, apa perbedaan antara pemrograman dinamis dan pembelajaran perbedaan

reinforcement-learning