Masalah utama dengan pembelajaran TD dan DP adalah bahwa pembaruan langkah mereka bias pada kondisi awal parameter pembelajaran. Proses bootstrap biasanya memperbarui fungsi atau pencarian Q (s, a) pada nilai penerus Q (s ', a') menggunakan apa pun perkiraan saat ini di yang terakhir. Jelas pada awal pembelajaran estimasi ini tidak mengandung informasi dari imbalan nyata atau transisi negara.
Jika pembelajaran berfungsi sebagaimana dimaksud, maka bias akan berkurang secara asimptotik pada beberapa iterasi. Namun, bias dapat menyebabkan masalah yang signifikan, terutama untuk metode di luar kebijakan (mis. Q Learning) dan saat menggunakan penaksir fungsi. Kombinasi itu sangat mungkin gagal bertemu sehingga disebut triad mematikan di Sutton & Bart.
Metode kontrol Monte Carlo tidak mengalami bias ini, karena setiap pembaruan dibuat menggunakan sampel sebenarnya dari Q (s, a) yang seharusnya. Namun, metode Monte Carlo dapat menderita varians tinggi, yang berarti lebih banyak sampel diperlukan untuk mencapai tingkat pembelajaran yang sama dibandingkan dengan TD.
Dalam praktiknya, pembelajaran TD tampaknya belajar lebih efisien jika masalah dengan triad mematikan dapat diatasi. Hasil terbaru menggunakan replay pengalaman dan salinan taksir "beku" yang dipentaskan memberikan penyelesaian sekitar yang mengatasi masalah - misalnya, itulah cara pelajar DQN untuk game Atari dibangun.
Ada juga jalan tengah antara TD dan Monte Carlo. Dimungkinkan untuk membangun metode umum yang menggabungkan lintasan panjang yang berbeda - dari TD satu langkah hingga menyelesaikan episode berjalan di Monte Carlo - dan menggabungkannya. Varian yang paling umum dari ini adalah pembelajaran TD ( ), di mana λ adalah parameter dari 0 (pembelajaran TD langkah tunggal efektif) hingga 1 (pembelajaran Monte Carlo efektif, tetapi dengan fitur yang bagus sehingga dapat digunakan dalam masalah yang berkelanjutan) . Biasanya, nilai antara 0 dan 1 membuat agen pembelajaran paling efisien - meskipun seperti banyak hiperparameter, nilai terbaik untuk digunakan tergantung pada masalahnya.λλ0101
Jika Anda menggunakan metode berbasis nilai (yang bertentangan dengan yang berbasis kebijakan), maka pembelajaran TD umumnya lebih banyak digunakan dalam praktik, atau metode kombinasi TD / MC seperti TD (λ) bisa menjadi lebih baik.
Dalam hal "keunggulan praktis" untuk MC? Pembelajaran Monte Carlo secara konseptual sederhana, kuat dan mudah diimplementasikan, walaupun seringkali lebih lambat dari TD. Saya biasanya tidak akan menggunakannya untuk mesin pengontrol pembelajaran (kecuali terburu-buru untuk mengimplementasikan sesuatu untuk lingkungan yang sederhana), tetapi saya akan dengan serius mempertimbangkannya untuk evaluasi kebijakan untuk membandingkan beberapa agen misalnya - itu karena itu menjadi ukuran yang tidak bias, yang penting untuk pengujian.
Pada dasarnya itu tergantung pada lingkungan Anda.
TD mengeksploitasi properti Markov, yaitu keadaan masa depan dari suatu proses hanya bergantung pada keadaan saat ini, dan karena itu biasanya lebih efisien untuk menggunakan TD di lingkungan Markov.
MC tidak mengeksploitasi properti Markov karena mendasarkan hadiah pada seluruh proses pembelajaran, yang cocok untuk lingkungan non-Markov.
sumber