Apa efisiensi sampel, dan bagaimana pentingnya sampling dapat digunakan untuk mencapainya?

Jawaban:

14

100

Dalam hal pembelajaran di luar kebijakan, tidak semua sampel berguna karena mereka bukan bagian dari distribusi yang kami minati. Pengambilan sampel yang pentingadalah teknik untuk menyaring sampel ini. Penggunaan aslinya adalah untuk memahami satu distribusi sementara hanya mampu mengambil sampel dari distribusi yang berbeda tetapi terkait. Dalam RL, ini sering muncul ketika mencoba belajar di luar kebijakan. Yaitu, bahwa sampel Anda dihasilkan oleh beberapa kebijakan perilaku tetapi Anda ingin mempelajari kebijakan target. Jadi seseorang perlu mengukur seberapa penting / mirip sampel yang dihasilkan dengan sampel yang mungkin dibuat oleh kebijakan target. Jadi, seseorang mengambil sampel dari distribusi berbobot yang mendukung sampel "penting" ini. Ada banyak metode, bagaimanapun, untuk mengkarakterisasi apa yang penting, dan efektivitasnya mungkin berbeda tergantung pada aplikasi.

Pendekatan yang paling umum untuk gaya pengambilan sampel yang penting di luar kebijakan ini adalah menemukan rasio seberapa besar kemungkinan sampel dihasilkan oleh kebijakan target. Makalah Pada Koneksi antara Pengambilan Sampel Penting dan Gradient Kebijakan Rasio Kemungkinan (2010) oleh Tang dan Abbeel membahas topik ini.

Jaden Travnik
sumber
2
Terima kasih lagi. Pertanyaan dasar: ..finding a ratio of how likely a sample is to be generated by the target policyBagaimana kita memutuskan ini, mengingat bahwa kita hanya mengetahui kebijakan perilaku? Bukankah kebijakan target sesuatu yang harus kita temukan?
Gokul NC
1
Kita bisa mendapatkan perkiraan ini dengan mudah dengan menemukan rasio kebijakan target, pi, mengambil tindakan yang bertentangan dengan kebijakan perilaku, mu. Jadi rasionya adalah P = pi (s, a) / mu (s, a) di mana a dan s adalah aksi yang dipilih masing-masing oleh mu dan negara.
Jaden Travnik
1
Pertanyaan saya adalah, dari mana kita mendapatkan pi (s, a) dari, sementara kita hanya punya mu (s, a)? Yaitu, dari mana kita mendapatkan kebijakan target, sementara itu tujuan kita untuk menemukannya?
Gokul NC
1
Kebijakan target Anda diinisialisasi ke acak, itu hanya masalah memperbaruinya.
Jaden Travnik
5

Efisiensi Sampel menunjukkan jumlah pengalaman yang perlu dihasilkan oleh agen / algoritma dalam suatu lingkungan (misalnya jumlah tindakan yang dilakukan dan jumlah status yang dihasilkan + penghargaan yang diamati) selama pelatihan untuk mencapai tingkat kinerja tertentu. Secara intuitif, Anda bisa mengatakan suatu algoritma adalah sampel yang efisien jika dapat memanfaatkan setiap pengalaman yang terjadi untuk menghasilkan dan dengan cepat meningkatkan kebijakannya. Algoritma memiliki efisiensi sampel yang buruk jika gagal mempelajari sesuatu yang bermanfaat dari banyak sampel pengalaman dan tidak meningkat dengan cepat.

Penjelasan tentang sampling penting dalam jawaban Jaden tampaknya sebagian besar benar.

Dalam makalah dalam pertanyaan Anda, sampel penting adalah salah satu bahan yang memungkinkan kombinasi yang benar dari 1) belajar dari lintasan multi-langkah, dan 2) mengalami buffer ulangan. Kedua hal itu tidak mudah untuk digabungkan sebelumnya (karena pengembalian multi-langkah tanpa sampel penting hanya benar dalam pembelajaran berdasarkan kebijakan, dan sampel lama dalam buffer replay dihasilkan oleh kebijakan lama yang berarti bahwa belajar dari mereka adalah di luar kebijakan ). Kedua hal tersebut secara individual meningkatkan efisiensi sampel, yang menyiratkan bahwa itu juga bermanfaat untuk efisiensi sampel jika keduanya masih dapat dikombinasikan.

Dennis Soemers
sumber