Pertanyaan yang diberi tag reinforcement-learning

79

Apa perbedaan antara pembelajaran di luar kebijakan dan pembelajaran di luar kebijakan?

Situs web kecerdasan buatan mendefinisikan pembelajaran di luar kebijakan dan di-kebijakan sebagai berikut: "Pelajar di luar kebijakan mempelajari nilai kebijakan optimal secara independen dari tindakan agen. Pembelajaran Q adalah pelajar di luar kebijakan. Pelajar di luar kebijakan mempelajari...

machine-learning reinforcement-learning artificial-intelligence

43

Memahami peran faktor diskon dalam pembelajaran penguatan

Saya belajar sendiri tentang penguatan pembelajaran, dan mencoba memahami konsep diskon hadiah. Jadi hadiah itu diperlukan untuk memberi tahu sistem pasangan tindakan negara mana yang baik, dan mana yang buruk. Tapi yang tidak saya mengerti adalah mengapa hadiah diskon diperlukan. Mengapa harus...

machine-learning reinforcement-learning

32

Mengapa tidak ada mesin pembelajaran penguatan yang dalam untuk catur, mirip dengan AlphaGo?

Komputer sudah lama bisa bermain catur menggunakan teknik "brute-force", mencari ke kedalaman tertentu dan kemudian mengevaluasi posisi. Namun komputer AlphaGo, hanya menggunakan JST untuk mengevaluasi posisi (itu tidak melakukan pencarian mendalam sejauh yang saya tahu). Apakah mungkin untuk...

neural-networks deep-learning reinforcement-learning games

30

Pembelajaran terawasi, pembelajaran tanpa pengawasan dan pembelajaran penguatan: Dasar-dasar alur kerja

Pembelajaran terawasi 1) Manusia membangun classifier berdasarkan input dan output data 2) Pengklasifikasi tersebut dilatih dengan serangkaian data pelatihan 3) Klasifikasi itu diuji dengan serangkaian data uji 4) Penempatan jika output memuaskan Untuk digunakan ketika, "Saya tahu cara...

machine-learning unsupervised-learning supervised-learning reinforcement-learning

27

Algoritme bandit terbaik?

Algoritme bandit yang paling terkenal adalah UCB yang memopulerkan kelas algoritma ini. Sejak itu saya kira sekarang ada algoritma yang lebih baik. Apa algoritma terbaik saat ini (dalam hal kinerja empiris atau batas teoritis)? Apakah algoritma ini optimal dalam beberapa

machine-learning algorithms theory reinforcement-learning multiarmed-bandit

25

Analisis Rangkaian Waktu Harian

Saya mencoba melakukan analisis deret waktu dan saya baru di bidang ini. Saya memiliki hitungan harian acara dari 2006-2009 dan saya ingin menyesuaikan model deret waktu untuk itu. Inilah kemajuan yang telah saya buat: timeSeriesObj =

r time-series seasonality multiple-seasonalities tbats hypothesis-testing beta-distribution machine-learning unsupervised-learning supervised-learning reinforcement-learning

22

Bagaimana Anda merancang sistem pembelajaran mesin untuk memainkan Angry Birds?

Setelah bermain Angry Birds terlalu banyak, saya mulai mengamati strategi saya sendiri. Ternyata saya mengembangkan pendekatan yang sangat spesifik untuk mendapatkan 3 bintang di setiap level. Itu membuat saya bertanya-tanya tentang tantangan mengembangkan sistem pembelajaran mesin yang akan mampu...

machine-learning reinforcement-learning

20

Apa itu Pembelajaran Penguatan Berulang

Baru-baru ini saya menemukan kata "Pembelajaran Penguatan Berulang". Saya mengerti apa itu "Jaringan Syaraf Berulang" dan apa itu "Pembelajaran Penguatan", tetapi tidak dapat menemukan banyak informasi tentang apa itu "Pembelajaran Penguatan Berulang". Dapatkah seseorang menjelaskan kepada saya...

machine-learning reinforcement-learning

19

Kapan memilih SARSA vs. Q Learning

SARSA dan Pembelajaran Q keduanya adalah algoritma pembelajaran penguatan yang bekerja dengan cara yang sama. Perbedaan yang paling mencolok adalah bahwa SARSA memiliki kebijakan sementara Q Learning tidak aktif. Aturan pembaruan adalah sebagai berikut: Q

reinforcement-learning

18

bagaimana membuat fungsi hadiah dalam pembelajaran penguatan

Saat mempelajari Penguatan Pembelajaran, saya telah menemukan banyak bentuk fungsi hadiah: , R ( s , a , s ′ ) , dan bahkan fungsi hadiah yang hanya bergantung pada keadaan saat ini. Karena itu, saya menyadari itu tidak mudah untuk 'membuat' atau 'mendefinisikan' fungsi

machine-learning reinforcement-learning

18

Mengapa Q-Learning menggunakan epsilon-serakah selama pengujian?

Dalam makalah DeepMind tentang video game Deep Q-Learning untuk Atari (di sini ), mereka menggunakan metode epsilon-serakah untuk eksplorasi selama pelatihan. Ini berarti bahwa ketika suatu tindakan dipilih dalam pelatihan, tindakan tersebut dapat dipilih sebagai tindakan dengan nilai q tertinggi,...

machine-learning reinforcement-learning q-learning deep-rl

17

Mengapa huruf Q dipilih dalam Q-learning?

Mengapa huruf Q dipilih atas nama Q-learning? Sebagian besar huruf dipilih sebagai singkatan, seperti singkatan kebijakan dan singkatan nilai. Tapi saya tidak berpikir Q adalah singkatan dari kata apa

terminology reinforcement-learning history q-learning

16

Apakah pembelajaran yang diawasi merupakan bagian dari pembelajaran penguatan?

Sepertinya definisi pembelajaran terawasi adalah subset dari pembelajaran penguatan, dengan jenis fungsi hadiah tertentu yang didasarkan pada data berlabel (sebagai lawan dari informasi lain di lingkungan). Apakah ini penggambaran yang

machine-learning terminology reinforcement-learning supervised-learning definition

15

Dalam situasi nyata seperti apa kita dapat menggunakan algoritma multi-arm bandit?

Bandit multi-lengan bekerja dengan baik dalam situasi di mana Anda memiliki pilihan dan Anda tidak yakin mana yang akan memaksimalkan kesejahteraan Anda. Anda dapat menggunakan algoritme untuk beberapa situasi kehidupan nyata. Sebagai contoh, belajar bisa menjadi bidang yang baik: Jika seorang...

algorithms reinforcement-learning multiarmed-bandit

14

Pertanyaan tentang Q-Learning menggunakan Neural Networks

Saya telah menerapkan Q-Learning seperti yang dijelaskan dalam, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Untuk sekitar. T (S, A) Saya menggunakan struktur jaringan saraf seperti berikut, Aktivasi sigmoid Input, jumlah input + 1 untuk neuron Aksi (Semua Input...

machine-learning neural-networks reinforcement-learning

14

Apa perbedaan antara episode dan zaman dalam pembelajaran Q mendalam?

Saya mencoba memahami makalah terkenal "Bermain Atari dengan Pembelajaran Penguatan Jauh" ( pdf ). Saya tidak jelas tentang perbedaan antara zaman dan episode . Dalam algoritma , loop luar lebih dari episode , sedangkan pada gambar sumbu x diberi label zaman . Dalam konteks pembelajaran penguatan,...

neural-networks terminology reinforcement-learning q-learning

14

GAM vs LOESS vs splines

Konteks : Saya ingin menggambar garis di sebar yang tidak tampak parametrik, oleh karena itu saya gunakan geom_smooth()di ggplotdalam R. Secara otomatis mengembalikan geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x'...

r gam splines loess r data-visualization boxplot mathematical-statistics theory sufficient-statistics machine-learning classification correlation svm feature-selection probability stochastic-processes machine-learning reinforcement-learning

14

Mengapa selalu ada setidaknya satu kebijakan yang lebih baik atau sama dengan semua kebijakan lainnya?

Pembelajaran Penguatan: Suatu Pengantar. Edisi kedua, dalam proses ., Richard S. Sutton dan Andrew G. Barto (c) 2012, hlm. 67-68. Memecahkan tugas pembelajaran penguatan berarti, secara kasar, menemukan kebijakan yang mencapai banyak penghargaan dalam jangka panjang. Untuk MDP terbatas, kita...

markov-process reinforcement-learning

13

Mengapa penguatan yang dalam belajar tidak stabil?

Dalam makalah DeepMind tahun 2015 tentang pembelajaran penguatan dalam, ia menyatakan bahwa "Upaya sebelumnya untuk menggabungkan RL dengan jaringan saraf sebagian besar gagal karena pembelajaran yang tidak stabil". Makalah ini kemudian mencantumkan beberapa penyebabnya, berdasarkan korelasi antar...

machine-learning neural-networks deep-learning reinforcement-learning

13

Algoritma optimal untuk menyelesaikan masalah bandit n-bersenjata?

Saya telah membaca tentang sejumlah algoritma untuk memecahkan masalah bandit n-bersenjata seperti -greedy, softmax, dan UCB1, tapi saya mengalami beberapa masalah memilah pendekatan apa yang terbaik untuk meminimalkan penyesalan.ϵϵ\epsilon Apakah ada algoritma optimal yang diketahui untuk...

machine-learning reinforcement-learning multiarmed-bandit