Pembelajaran tanpa pengawasan, supervisi, dan semi-supervisi

27

Dalam konteks pembelajaran mesin, apa perbedaannya

  • belajar tanpa pengawasan
  • pembelajaran yang diawasi dan
  • pembelajaran semi-terawasi?

Dan apa saja beberapa pendekatan algoritmik utama untuk dilihat?

Ami
sumber
8
Pertama, dua baris dari wiki: "Dalam ilmu komputer, pembelajaran semi-diawasi adalah kelas teknik pembelajaran mesin yang memanfaatkan data berlabel dan tidak berlabel untuk pelatihan - biasanya sejumlah kecil data berlabel dengan sejumlah besar data yang tidak berlabel. Pembelajaran semi-diawasi berada di antara pembelajaran tanpa pengawasan (tanpa data pelatihan yang berlabel) dan pembelajaran yang diawasi (dengan data pelatihan yang sepenuhnya berlabel). " Apakah itu membantu?
Apa yang ada dalam pikiran Anda dengan "Pendekatan Algoritma"? Saya memberikan beberapa contoh aplikasi dalam jawaban saya, apakah itu yang Anda cari?
Peter Smit

Jawaban:

20

Secara umum, masalah pembelajaran mesin dapat dianggap variasi pada estimasi fungsi untuk klasifikasi, prediksi atau pemodelan.

Dalam pembelajaran yang diawasi seseorang dilengkapi dengan input ( , , ...,) dan output ( , , ...,) dan ditantang untuk menemukan fungsi yang mendekati perilaku ini dengan cara yang dapat digeneralisasikan. Outputnya bisa berupa label kelas (dalam klasifikasi) atau bilangan real (dalam regresi) - ini adalah "supervisi" dalam pembelajaran yang diawasi.x1x2y1y2

Dalam hal pembelajaran tanpa pengawasan , dalam kasus dasar, Anda menerima input , , ..., tetapi output target, atau hadiah dari lingkungannya tidak disediakan. Berdasarkan masalah (mengklasifikasikan, atau memprediksi) dan latar belakang pengetahuan Anda tentang ruang sampel, Anda dapat menggunakan berbagai metode: estimasi kepadatan (memperkirakan beberapa PDF yang mendasari untuk prediksi), k-means clustering (mengklasifikasikan data bernilai nyata yang tidak diberi label), k- mode clustering (mengklasifikasikan data kategori tidak berlabel), dll.x1x2

Pembelajaran semi-diawasi melibatkan estimasi fungsi pada data berlabel dan tidak berlabel. Pendekatan ini dimotivasi oleh fakta bahwa data berlabel sering kali mahal untuk dihasilkan, sedangkan data yang tidak berlabel umumnya tidak. Tantangan di sini sebagian besar melibatkan pertanyaan teknis tentang bagaimana memperlakukan data yang dicampur dengan cara ini. Lihat Survei Sastra Belajar Semi-Supervisi ini untuk detail lebih lanjut tentang metode belajar semi-diawasi

Selain jenis pembelajaran ini, ada yang lain, seperti pembelajaran penguatan di mana metode pembelajaran berinteraksi dengan lingkungannya dengan menghasilkan tindakan , ,. . .. yang menghasilkan hadiah atau hukuman , , ...a1a2r1r2

John L. Taylor
sumber
1
Jawaban Anda secara tidak langsung menyatakan bahwa pembelajaran yang diawasi lebih disukai daripada pembelajaran semi-diawasi, jika memungkinkan. Apakah itu benar? Jika tidak, kapankah pembelajaran semi-supervisi lebih baik?
naught101
@ naught101 Bagaimana Anda membacanya dari jawabannya? Saya setuju dengan apa yang dikatakan John, tetapi saya akan mengatakan kebalikan dari apa yang Anda katakan, yaitu bahwa pembelajaran semi-diawasi lebih disukai daripada pembelajaran yang diawasi sedapat mungkin. Yaitu, jika Anda memiliki beberapa data yang berlabel dan beberapa data yang tidak berlabel (biasanya jauh lebih banyak daripada jumlah data yang berlabel), Anda akan lebih baik jika Anda dapat menggunakan semua data daripada jika Anda hanya dapat menggunakan data yang berlabel. Inti dari penggunaan pembelajaran semi-terawasi adalah untuk melampaui kinerja yang diperoleh dengan melakukan pembelajaran terawasi atau belajar tanpa pengawasan.
HelloGoodbye
@ HaloGoodbye: karena satu-satunya manfaat yang ditentukan untuk pembelajaran semi-terawasi adalah bahwa dalam beberapa kasus lebih murah, tetapi ada kekurangan tambahan yang lebih menantang. Tampaknya masuk akal bagi saya bahwa pembelajaran yang diawasi sepenuhnya akan lebih mudah, dan lebih akurat (semua hal lain dianggap sama), mengingat lebih banyak data kebenaran dasar disediakan. Jadi saya hanya meminta contoh di mana, mengingat pilihan antara keduanya, semi-diawasi akan lebih disukai. Komentar Anda masuk akal, tetapi apakah ada kasus di mana semua data diberi label dan Anda masih lebih suka semi-diawasi?
naught101
@ naught101 Saya kira jika semua data diberi label, Anda tidak menang sangat banyak dengan menggunakan pembelajaran semi-diawasi daripada menggunakan pembelajaran yang diawasi normal. Ketika Anda memiliki banyak data yang tidak berlabel dan melakukan pembelajaran semi-diawasi, alasan utama Anda melihat peningkatan kinerja adalah karena Anda melakukan transfer pembelajaran dan dapat memperoleh pengalaman dari data yang tidak berlabel juga.
HelloGoodbye,
@ naught101 Namun, dengan memberikan jaringan tugas mereproduksi data input sebaik mungkin dari data output (yaitu mengimplementasikan autoencoder, yang merupakan jenis pembelajaran tanpa pengawasan), jaringan dipaksa untuk mempelajari representasi data yang baik. Ini dapat bertindak sebagai semacam regularisasi, yang pada gilirannya juga dapat terbukti bermanfaat. Jadi mungkin mungkin ada kemenangan kecil menggunakan pembelajaran semi-diawasi daripada pembelajaran terbimbing normal, bahkan jika semua data akan diberi label. Seberapa besar efek ini, saya tidak tahu.
HelloGoodbye,
13

Pembelajaran tanpa pengawasan

Pembelajaran tanpa pengawasan adalah saat Anda tidak memiliki data berlabel yang tersedia untuk pelatihan. Contohnya adalah metode pengelompokan.

Pembelajaran terawasi

Dalam hal ini data pelatihan Anda ada di luar data berlabel. Masalah yang Anda selesaikan di sini adalah sering memprediksi label untuk titik data tanpa label.

Pembelajaran Semi-Supervisi

Dalam hal ini digunakan data berlabel dan data tidak berlabel. Ini misalnya dapat digunakan dalam jaringan Keyakinan mendalam, di mana beberapa lapisan mempelajari struktur data (tanpa pengawasan) dan satu lapisan digunakan untuk membuat klasifikasi (dilatih dengan data yang diawasi)

Peter Smit
sumber
7

Saya tidak berpikir bahwa diawasi / tidak diawasi adalah cara terbaik untuk memikirkannya. Untuk penggalian data dasar, lebih baik pikirkan apa yang Anda coba lakukan. Ada empat tugas utama:

  1. ramalan. jika Anda memprediksi bilangan real, itu disebut regresi. jika Anda memprediksi bilangan bulat atau kelas, itu disebut klasifikasi.

  2. pemodelan. pemodelan sama dengan prediksi, tetapi model itu dapat dipahami oleh manusia. Jaringan saraf dan mesin vektor bekerja dengan baik, tetapi tidak menghasilkan model yang dapat dipahami [1]. pohon keputusan dan regresi linier klasik adalah contoh model yang mudah dipahami.

  3. kesamaan. jika Anda mencoba menemukan kelompok atribut alami, itu disebut analisis faktor. jika Anda mencoba menemukan kelompok pengamatan alami, itu disebut pengelompokan.

  4. asosiasi. ini seperti korelasi, tetapi untuk kumpulan data biner yang sangat besar.

[1] Tampaknya Goldman Sachs menciptakan banyak sekali jaringan saraf untuk prediksi, tetapi kemudian tidak ada yang memahaminya, jadi mereka harus menulis program lain untuk mencoba menjelaskan jaringan saraf itu.

Neil McGuigan
sumber
dapatkah Anda memberikan informasi lebih lanjut tentang cerita GS? (tidak yakin mengapa saya tidak dapat mengomentari langsung komentar Anda)
YA
saya tidak ingat persis di mana saya membaca itu, tetapi di sini ada beberapa info lebih lanjut tentang AI @ GS: hplusmagazine.com/2009/08/06/…
Neil McGuigan
Saya memiliki perasaan ini yang menggambarkan pembelajaran dalam pengaturan yang diawasi dan 3,4 berada di pengaturan yang tidak diawasi. Juga: bagaimana jika Anda mencari kesamaan untuk memprediksi? Apakah itu dianggap pemodelan?
Tuan Tsjolder