Pembelajaran terawasi, pembelajaran tanpa pengawasan dan pembelajaran penguatan: Dasar-dasar alur kerja

30

Pembelajaran terawasi

  • 1) Manusia membangun classifier berdasarkan input dan output data
  • 2) Pengklasifikasi tersebut dilatih dengan serangkaian data pelatihan
  • 3) Klasifikasi itu diuji dengan serangkaian data uji
  • 4) Penempatan jika output memuaskan

Untuk digunakan ketika, "Saya tahu cara mengklasifikasikan data ini, saya hanya perlu Anda (pengklasifikasi) untuk mengurutkannya."

Titik metode: Ke label kelas atau untuk menghasilkan bilangan real

Pembelajaran tanpa pengawasan

  • 1) Manusia membangun algoritma berdasarkan input data
  • 2) Algoritma itu diuji dengan serangkaian uji data (di mana algoritma membuat classifier)
  • 3) Penempatan jika penggolongnya memuaskan

Untuk digunakan ketika, "Saya tidak tahu cara mengklasifikasikan data ini, dapatkah Anda (algoritme) membuat classifier untuk saya?"

Poin metode: Untuk mengklasifikasikan label atau memprediksi (PDF)

Pembelajaran penguatan

  • 1) Manusia membangun algoritma berdasarkan input data
  • 2) Algoritme itu menyajikan keadaan yang tergantung pada input data di mana pengguna memberi hadiah atau menghukum algoritma melalui tindakan yang dilakukan algoritma, ini terus berlanjut
  • 3) Algoritma itu belajar dari hadiah / hukuman dan pembaruan itu sendiri, ini berlanjut
  • 4) Selalu dalam produksi, perlu belajar data nyata untuk dapat menyajikan tindakan dari negara

Untuk digunakan saat, "Saya tidak tahu cara mengklasifikasikan data ini, dapatkah Anda mengklasifikasikan data ini dan saya akan memberi Anda hadiah jika itu benar atau saya akan menghukum Anda jika tidak."

Apakah ini semacam aliran praktek-praktek ini, saya mendengar banyak tentang apa yang mereka lakukan, tetapi praktis dan teladan informasi menggemparkan kecil!

Karl Morrison
sumber
Sangat menyukai cara Anda mengajukan pertanyaan. Saya menemukan jawaban ini bermanfaat: stats.stackexchange.com/a/522/92255
Ashesh Kumar Singh

Jawaban:

3

Ini adalah pengantar kompak yang sangat bagus untuk ide-ide dasar!

Pembelajaran Penguatan

Saya pikir deskripsi use case Anda tentang pembelajaran penguatan tidak sepenuhnya benar. Istilah klasifikasi tidak tepat. Deskripsi yang lebih baik adalah:

Saya tidak tahu bagaimana harus bertindak dalam lingkungan ini , dapatkah Anda menemukan perilaku yang baik dan sementara itu saya akan memberi Anda umpan balik .

Dengan kata lain, tujuannya adalah untuk mengendalikan sesuatu dengan baik, daripada mengklasifikasikan sesuatu dengan baik.

Memasukkan

  • The lingkungan yang didefinisikan oleh
    • semua kemungkinan status
    • tindakan yang mungkin dilakukan di negara bagian
  • Fungsi hadiah tergantung pada negara dan / atau tindakan

Algoritma

  • Agen
    • dalam keadaan
    • mengambil tindakan untuk mentransfer ke negara lain
    • mendapat hadiah untuk tindakan di negara bagian

Keluaran

  • Agen ingin menemukan kebijakan optimal yang memaksimalkan hadiah
elcombato
sumber
2

Penafian: Saya bukan ahli dan saya bahkan belum pernah melakukan sesuatu dengan pembelajaran penguatan (belum), jadi umpan balik apa pun akan disambut ...

Berikut adalah jawaban yang menambahkan beberapa catatan matematika kecil ke daftar Anda dan beberapa pemikiran berbeda tentang kapan harus menggunakan apa. Saya harap pencacahannya cukup jelas:

Dibimbing

  1. Kami memiliki dataD={(x0,y0),(x1,y1),,(xn,yn)}
  2. Kami mencari model yang meminimalkan beberapa ukuran kerugian / biaya untuk semua poingL(yi,g(xi))0i<l
  3. Kami mengevaluasi model dengan menghitung kerugian / biaya untuk sisa data ( ) untuk mendapatkan gambaran seberapa baik model tersebut secara umumLlin

Kami dapat memberikan contoh, tetapi kami tidak dapat memberikan algoritma untuk mendapatkan dari input ke output

Pengaturan untuk klasifikasi dan regresi

Tidak diawasi

  1. Kami memiliki dataD={x0,x1,,xn}
  2. Kami mencari model yang memberi kami beberapa wawasan dalam data kami.g
  3. Kami memiliki sedikit atau tanpa tindakan untuk mengatakan apakah kami melakukan sesuatu yang bermanfaat / menarik

Kami memiliki beberapa data, tetapi kami tidak tahu harus mulai dari mana untuk mencari hal-hal yang berguna / menarik

Pengaturan untuk pengelompokan, pengurangan dimensi, menemukan faktor tersembunyi, model generatif, dll.

Penguatan

  1. Kami tidak memiliki data
  2. Kami membangun model yang menghasilkan data (sering disebut tindakan), yang dapat didasarkan pada pengukuran dan / atau tindakan sebelumnya, dalam upaya untuk memaksimalkan beberapa ukuran hadiah , yang umumnya tidak diketahui oleh model (perlu dipelajari juga).x i R ( x i )gxiR(xi)
  3. Kami mengevaluasi melalui fungsi hadiah setelah sempat belajar.

Kami tidak tahu bagaimana melakukan sesuatu, tetapi kami dapat mengatakan apakah itu dilakukan dengan benar atau salah

Ini tampaknya sangat berguna untuk tugas keputusan berurutan.

Referensi:
Si, J., Barto, A., Powell, W. dan Wunsch, D. (2004) Pembelajaran Penguatan dan Hubungannya dengan Pembelajaran yang Dibimbing, dalam Buku Pegangan Pembelajaran dan Perkiraan Pemrograman Dinamis, John Wiley & Sons, Inc., Hoboken, NJ, AS. doi: 10.1002 / 9780470544785.ch2

Tuan Tsjolder
sumber