Mari kita pikirkan situasi berikut:
- Anda sedang mengajar robot untuk bermain ping pong
- Anda sedang mengajar program untuk menghitung akar kuadrat
- Anda mengajar matematika kepada seorang anak di sekolah
Situasi-situasi ini (yaitu pembelajaran yang diawasi), dan banyak lainnya memiliki satu kesamaan (antara lain): pelajar mendapat hadiah berdasarkan kinerjanya.
Pertanyaan saya adalah, seperti apa fungsi hadiah itu? Apakah ada jawaban "terbaik", atau tergantung pada situasinya? Jika itu tergantung pada situasinya, bagaimana seseorang menentukan fungsi hadiah yang dipilih?
Misalnya, ambil tiga fungsi hadiah berikut:
- Fungsi
A
mengatakan:- di bawah titik tertentu, buruk atau lebih buruk adalah sama: Anda tidak mendapat apa-apa
- ada perbedaan yang jelas antara hampir baik dan sempurna
- Fungsi
B
mengatakan:- Anda mendapatkan hadiah yang sebanding dengan kinerja Anda
- Fungsi
C
mengatakan:- jika kinerja Anda buruk, tidak apa-apa, Anda melakukan yang terbaik: Anda masih mendapatkan hadiah
- tidak ada banyak perbedaan antara sempurna dan hampir baik
Secara intuitif, saya pikir A
akan membuat robot sangat fokus dan mempelajari pola yang tepat, tetapi menjadi bodoh ketika berhadapan dengan pola yang sama, sementara C
akan membuatnya lebih mudah beradaptasi untuk berubah dengan biaya kehilangan kesempurnaan.
Orang mungkin juga memikirkan fungsi yang lebih kompleks, hanya untuk menunjukkan tetapi sedikit:
Jadi, bagaimana cara mengetahui fungsi mana yang harus dipilih? Apakah diketahui perilaku mana yang akan muncul dari (paling tidak) dasar A
, B
dan C
fungsinya?
Pertanyaan sampingan adalah apakah ini akan berbeda secara mendasar untuk robot dan anak-anak manusia?
sumber
A
, robot bisa menjadi sangat baik pada tugas yang tepat, tetapi mengerikan pada tugas yang serupa tetapi sedikit berbeda. Tapi itu hanya dugaanku.X
memberi saya hasil terbaik", bahkan jika tidak sepenuhnya benar, akan memberikan aturan praktis yang bagus.Jawaban:
Jawaban singkat: efek penguatan terkuat berasal dari pemberian hadiah yang berharga pada jadwal (acak) yang terputus-putus.
Versi yang lebih panjang: Salah satu aspek dari pertanyaan Anda adalah tentang pengkondisian operan , setidaknya seperti yang berlaku untuk mengajar matematika ke organisme yang kompleks. Menerapkan ini ke pembelajaran mesin dikenal sebagai pembelajaran penguatan .
Ekonomi (sesuai jawaban jwpat7 ) hanya membahas satu bagian kisah penguatan. Fungsi utilitas memberi tahu Anda imbalan apa yang memiliki efek penguatan terkuat (dampak terbesar pada perilaku) dalam konteks tertentu. Apakah itu pujian? cokelat? kokain? rangsangan listrik langsung ke area otak tertentu? Sebagian besar jawaban saya adalah tentang pengaruh konteks, dengan asumsi utilitas hadiah yang diberikan.
Untuk organisme / perilaku yang kompleks, penjadwalan hadiah setidaknya sama pentingnya dengan utilitas hadiah:
Jika Anda seorang pengawas pembelajaran dengan anggaran hadiah tetap, untuk situasi pembelajaran tertentu, akan ada keseimbangan ukuran dan utilitas hadiah yang optimal. Itu mungkin bukan potongan hadiah yang sangat kecil pada frekuensi yang sangat tinggi, atau potongan hadiah yang sangat besar yang diberikan sangat jarang. Bahkan mungkin berupa hadiah ukuran acak pada jadwal acak - yang optimal biasanya ditentukan secara eksperimental untuk situasi tertentu.
Akhirnya, jadwal "optimal" (frekuensi acak, kuantitas acak {p (hadiah), p (nilai)}) mungkin akan bervariasi pada berbagai tahap dalam proses pembelajaran. Sebagai contoh, murid baru mungkin terkena efek "keunggulan" (selamat datang! Punya jelly bean) yang dengan cepat menjadi hadiah interval tetap jika Anda mengulanginya. Mungkin ada efek "kebaruan" yang mendapat nilai penguatan lebih dari hadiah yang disampaikan pada percobaan terakhir ("finishing pada nada tinggi"). Di antaranya, mungkin ada "efek iman" akumulatif di mana ketika seorang pelajar menjadi lebih berpengalaman, yang optimal mungkin bergeser ke probabilitas yang lebih rendah, utilitas yang lebih tinggi dari waktu ke waktu. Sekali lagi, lebih banyak barang untuk menentukan secara empiris dalam situasi Anda.
sumber
"Pembelajaran optimal" adalah istilah yang sangat kabur, dan sepenuhnya tergantung pada masalah spesifik yang sedang Anda kerjakan. Istilah yang Anda cari adalah " overfitting ":
(Garis hijau adalah kesalahan dalam memprediksi hasil pada data pelatihan, garis ungu kualitas model, dan garis merah adalah kesalahan dari model yang dipelajari yang digunakan "dalam produksi")
Dengan kata lain: ketika datang untuk mengadaptasi perilaku belajar Anda ke masalah yang sama, bagaimana Anda memberi penghargaan pada sistem Anda kurang penting daripada berapa kali Anda menghargainya - Anda ingin mengurangi kesalahan dalam data pelatihan, tetapi tidak menyimpannya dalam pelatihan sehingga lama itu kehilangan kemampuan untuk bekerja pada model yang sama.
Salah satu metode untuk mengatasi masalah ini adalah dengan memotong dua data pelatihan Anda: gunakan satu setengah untuk belajar dan setengah lainnya untuk memvalidasi pelatihan. Ini membantu Anda mengidentifikasi ketika Anda mulai terlalu bugar.
Fungsi hadiah non-linear
Sebagian besar algoritma pembelajaran yang diawasi mengharapkan aplikasi fungsi hadiah akan menghasilkan output yang cembung. Dengan kata lain, memiliki minimum lokal di kurva itu akan mencegah sistem Anda dari konvergen ke perilaku yang tepat. Video ini menunjukkan sedikit matematika di balik fungsi biaya / hadiah .
sumber
Masalah-masalah ini ditangani, sampai batas tertentu, oleh studi fungsi utilitas dalam ekonomi. Fungsi utilitas mengungkapkan nilai yang efektif atau yang dirasakan dari satu hal dalam hal yang lain. (Sementara kurva yang ditunjukkan dalam pertanyaan adalah fungsi hadiah dan menyatakan berapa banyak hadiah yang akan ditender untuk berbagai tingkat kinerja, fungsi utilitas yang serupa dapat mengungkapkan berapa banyak hasil kinerja dari berbagai tingkat imbalan.)
Fungsi hadiah apa yang paling berhasil tergantung pada keseimbangan antara pembayar dan pelaku. Artikel kurva kontrak wikipedia diilustrasikan dengan kotak Edgeworth cara menemukan alokasi Pareto yang efisien . The Von Neumann-Morgenstern utilitas teorema melukiskan kondisi yang memastikan bahwa agen adalah VNM-rasional dan dapat dicirikan sebagai memiliki fungsi utilitas. Bagian "Prediksi perilaku yang dihasilkan dari utilitas HARA" dari artikel penghindaran risiko absolut Hiperbola di wikipedia menjelaskan konsekuensi perilaku fungsi utilitas tertentu.
Rangkuman: Topik-topik ini telah menjadi subjek dari sejumlah besar studi di bidang ekonomi dan ekonomi mikro. Sayangnya, mengekstrak ringkasan singkat dan berguna yang menjawab pertanyaan Anda mungkin juga membutuhkan banyak pekerjaan, atau perhatian seseorang yang lebih ahli daripada saya.
sumber
Fungsi hadiah yang optimal tergantung pada tujuan pembelajaran, yaitu apa yang harus dipelajari. Untuk masalah sederhana dimungkinkan untuk menemukan representasi formulir tertutup untuk fungsi hadiah yang optimal. Bahkan untuk masalah yang sangat sederhana, saya yakin itu mungkin meskipun saya tahu tidak ada metode formal untuk melakukannya (saya menduga teori utilitas akan menjawab pertanyaan ini). Untuk masalah yang lebih kompleks saya berpendapat bahwa tidak mungkin untuk menemukan solusi bentuk tertutup.
Alih-alih mencari fungsi yang optimal, kita bisa mencari ahli untuk fungsi hadiah yang baik. Salah satu pendekatan untuk melakukannya adalah teknik yang disebut Inverse Reinforcement Learning (IRL). Ini merumuskan masalah belajar sebagai masalah pembelajaran penguatan di mana fungsi hadiah tidak diketahui dan tujuan dari proses pembelajaran. Makalah Pembelajaran Magang melalui Inverse Reinforcement Learning oleh Pieter Abbeel dan Andrew Ng adalah tempat yang baik untuk mulai belajar tentang IRL.
sumber
Segala bentuk pembelajaran yang diawasi adalah pencarian terarah di ruang kebijakan. Anda mencoba menemukan kebijakan - tindakan yang harus diambil - yang memberikan harapan imbalan maksimal. Dalam pertanyaan Anda, Anda memberikan hadiah sebagai fungsi kinerja. Selama fungsi ini monoton, metode apa pun yang konvergen pada akhirnya akan memberi Anda kinerja maksimal (tetap menggunakan terminologi Anda).
Seberapa cepat metode konvergen adalah masalah lain, dan mungkin tergantung pada kurva. Tapi saya pikir ini akan berbeda dari metode ke metode.
Masalah yang sama sekali berbeda adalah bahwa untuk skenario yang lebih kompleks kinerja bukan skalar sederhana, dan mendefinisikannya bisa sangat sulit. Apa fungsi imbalan karena pandai matematika?
sumber