Sepertinya definisi pembelajaran terawasi adalah subset dari pembelajaran penguatan, dengan jenis fungsi hadiah tertentu yang didasarkan pada data berlabel (sebagai lawan dari informasi lain di lingkungan). Apakah ini penggambaran yang akurat?
Sepertinya definisi pembelajaran terawasi adalah subset dari pembelajaran penguatan, dengan jenis fungsi hadiah tertentu yang didasarkan pada data berlabel (sebagai lawan dari informasi lain di lingkungan). Apakah ini penggambaran yang akurat?
Memang benar bahwa setiap masalah pembelajaran yang diawasi dapat dilemparkan sebagai masalah pembelajaran penguatan yang setara: Biarkan negara sesuai dengan data input. Biarkan tindakan sesuai dengan prediksi output. Tentukan hadiah sebagai negatif dari fungsi kerugian yang digunakan untuk pembelajaran yang diawasi. Maksimalkan hadiah yang diharapkan. Sebaliknya, masalah pembelajaran penguatan umumnya tidak dapat dianggap sebagai masalah pembelajaran yang diawasi. Jadi, dari perspektif ini, masalah belajar yang diawasi adalah bagian dari masalah belajar penguatan.
Tetapi, mencoba untuk memecahkan masalah pembelajaran yang diawasi menggunakan algoritma pembelajaran penguatan umum akan agak sia-sia; semua ini dilakukan adalah membuang struktur yang akan membuat masalah lebih mudah untuk dipecahkan. Berbagai masalah muncul dalam pembelajaran penguatan yang tidak relevan dengan pembelajaran yang diawasi. Dan, pembelajaran yang diawasi dapat mengambil manfaat dari pendekatan yang tidak berlaku dalam pengaturan pembelajaran penguatan umum. Jadi, meskipun ada beberapa prinsip dasar yang mendasari dan teknik bersama di antara bidang-bidang tersebut, orang biasanya tidak melihat pembelajaran yang diawasi dibahas sebagai jenis pembelajaran penguatan.
Referensi
Barto dan Dietterich (2004) . Penguatan pembelajaran dan hubungannya dengan pembelajaran yang diawasi.