Pertanyaan yang diberi tag reinforcement-learning

10
Bisakah model P (Y | X) dilatih melalui stochastic gradient descent dari sampel non-iid P (X) dan sampel iid dari P (Y | X)?

Ketika melatih model parameter (misalnya untuk memaksimalkan kemungkinan) melalui penurunan gradien stokastik pada beberapa set data, umumnya diasumsikan bahwa sampel pelatihan diambil di awal dari distribusi data pelatihan. Jadi, jika tujuannya adalah untuk memodelkan distribusi bersama , maka...

9
Pembelajaran Penguatan pada Data Historis

Saya telah bekerja mempelajari kebijakan komunikasi optimal untuk pelanggan (pemberitahuan mana yang harus dikirim, berapa yang harus dikirim dan kapan harus dikirim). Saya memiliki data historis pemberitahuan sebelumnya yang dikirim (dengan cap waktu) dan kinerjanya. Sedang mencoba menerapkan RL...

9
Bagaimana cara menafsirkan kurva survival model bahaya Cox?

Bagaimana Anda menginterpretasikan kurva survival dari model hazard proporsional cox? Dalam contoh mainan ini, anggaplah kita memiliki model hazard proporsional cox pada agevariabel dalam kidneydata, dan menghasilkan kurva survival. library(survival) fit <- coxph(Surv(time, status)~age,...