- Apakah RL kerangka kerja yang tepat di bawah kendala seperti itu?
Tampaknya mungkin , tetapi mungkin beberapa detail kecil yang belum Anda berikan akan membuat pendekatan lain lebih layak. Misalnya, jika acara notifikasi dapat diperlakukan sebagai lebih atau kurang mandiri, maka pendekatan pembelajaran yang diawasi mungkin lebih baik, atau setidaknya lebih pragmatis.
Lebih praktisnya, tidak jelas 100% kondisi negara, waktu dan pilihan tindakan Anda nantinya. Ini perlu didefinisikan dengan baik agar pendekatan RL bekerja. Selain itu, Anda ingin dapat membangun negara yang memiliki (atau hampir memiliki) properti Markov - pada dasarnya bahwa segala sesuatu yang diketahui dan tidak acak tentang hadiah yang diharapkan dan keadaan selanjutnya dicakup oleh negara.
- Bagaimana kita dapat mempelajari kebijakan optimal secara offline dalam situasi seperti itu
Anda ingin pelajar yang offline (data historis, bukan "langsung") dan di luar kebijakan (data dihasilkan oleh kebijakan yang berbeda dengan yang ingin Anda evaluasi). Selain itu, saya menduga Anda tidak tahu kebijakan perilaku yang menghasilkan data Anda, jadi Anda tidak bisa menggunakan sampel penting .
Mungkin Anda dapat menggunakan pendekatan pembelajaran-Q , dan bekerja melalui data yang ada baik dengan memutar ulang setiap lintasan menggunakan Q ( ) dalam batch, atau beberapa varian DQN menggunakan sampel mini-batch .λ
Ini tidak dijamin berhasil, karena pembelajaran di luar kebijakan cenderung kurang stabil daripada di-kebijakan, dan mungkin memerlukan beberapa upaya untuk mendapatkan hiper-parameter yang akan berfungsi. Anda akan membutuhkan sejumlah sampel yang mencakup pilihan optimal atau mendekati optimal pada setiap langkah (tidak harus dalam episode yang sama), karena Q-learning bergantung pada bootstrap - pada dasarnya menyalin estimasi nilai dari pilihan tindakan mundur ke langkah waktu sebelumnya sehingga dapat mempengaruhi yang sebelumnya menyatakan agen lebih suka mengambil tindakan untuk menuju.
Jika negara / ruang tindakan Anda cukup kecil (ketika Anda menyebutkan secara penuh negara dan tindakan), Anda mungkin lebih suka menggunakan bentuk tabel Q-learning karena memiliki beberapa jaminan konvergensi. Namun, untuk sebagian besar masalah praktis ini tidak benar-benar mungkin, jadi Anda ingin melihat opsi untuk menggunakan fungsi aproksimasi.
... dan bagaimana kita mengevaluasi hal yang sama?
Jika Anda bisa mendapatkan nilai tindakan konvergensi yang tampak realistis dari pembelajaran Q Anda (dengan inspeksi), maka hanya ada 2 cara yang masuk akal untuk menilai kinerja:
Dengan menjalankan agen dalam simulasi (dan mungkin selanjutnya memperbaikinya di sana) - Saya tidak berharap ini layak untuk skenario Anda, karena lingkungan Anda mencakup keputusan yang dibuat oleh pelanggan Anda. Namun, ini adalah batu loncatan yang baik untuk beberapa skenario, misalnya jika lingkungan didominasi oleh fisika dasar dunia nyata.
Dengan menjalankan agen secara nyata, mungkin pada beberapa bagian dari beban kerja, dan membandingkan imbalan yang sebenarnya dengan yang diprediksi selama cukup waktu untuk membangun kepercayaan statistik.
Anda juga bisa mengeringkan agen bersama operator yang ada, dan mendapatkan umpan balik apakah sarannya untuk tindakan (dan prediksi imbalan) tampak realistis. Itu akan menjadi umpan balik subyektif, dan sulit untuk menilai kinerja secara numerik ketika tindakan mungkin atau mungkin tidak digunakan. Namun, itu akan memberi Anda sedikit QA.