Saya tidak dapat memahami tujuan bobot sampel-penting (IS) di Putar Ulang Prioritas (halaman 5) .
Transisi lebih mungkin disampel dari pengalaman memutar ulang semakin besar "biaya" -nya. Pemahaman saya adalah bahwa 'IS' membantu dengan lancar meninggalkan penggunaan replay yang diprioritaskan setelah kami berlatih cukup lama. Tapi apa yang kita gunakan sebagai contoh, sampling seragam?
Saya kira saya tidak dapat menyadari bagaimana setiap komponen dalam koefisien seperti itu mempengaruhi hasil. Bisakah seseorang menjelaskannya dengan kata-kata?
Ini kemudian digunakan untuk mengurangi gradien, yang kami coba dapatkan dari transisi.
Dimana:
- adalah "IS"
- N adalah ukuran buffer Replay Pengalaman
- P (i) adalah kesempatan untuk memilih transisi , tergantung pada "seberapa besar biayanya".
- mulai dari 0 dan diseret semakin dekat ke 1 dengan setiap zaman baru.
Apakah pemahaman saya tentang parameter ini juga benar?
Sunting Beberapa saat setelah jawaban diterima, saya menemukan sumber tambahan, sebuah video yang mungkin berguna untuk pemula - Simulasi MC: 3.5 Pengambilan Sampel Penting
Sunting As @avejidah katakan dalam komentar untuk jawabannya " digunakan untuk meratakan sampel dengan probabilitas bahwa mereka akan dijadikan sampel " .
Untuk menyadari mengapa ini penting, anggaplah ditetapkan ke 1, kami memiliki 4 sampel, masing-masing memiliki sebagai berikut:
0.1 0.2 0.3 0.4
Artinya, entri pertama memiliki 10% dari yang dipilih, kedua adalah 20% dll. Sekarang, membalikkan mereka, kita mendapatkan:
10 5 3.333 2.5
Rata-rata melalui (yang dalam kasus kami adalah ) kita mendapatkan:
2.5 1.25 0.8325 0.625 ...which would add up to '5.21'
Seperti yang dapat kita lihat mereka lebih dekat ke nol daripada versi yang hanya terbalik (). Ini berarti gradien untuk jaringan kami tidak akan diperbesar sebanyak ini, menghasilkan varians yang jauh lebih sedikit saat kami melatih jaringan kami.
Jadi, tanpa ini kami beruntung memilih sampel yang paling tidak mungkin (), gradien akan diskalakan 10 kali. Akan lebih buruk dengan nilai yang lebih kecil, katakanlah kebetulan, jika replay pengalaman kami memiliki ribuan entri, yang cukup biasa.
Saya ragu. Sebagai kertas PER,
Jadi bukankah faktor 1 / N menjadi tidak efektif? misalnya, perhatikan sampel terakhir,
begitu,
dengan menormalkan,
Tolong bantu saya jika pemahaman saya salah.
sumber