Pembelajaran semi-diawasi, pembelajaran aktif dan pembelajaran mendalam untuk klasifikasi

19

Suntingan terakhir dengan semua sumber daya diperbarui:

Untuk sebuah proyek, saya menerapkan algoritma pembelajaran mesin untuk klasifikasi.

Tantangan: Data berlabel yang cukup terbatas dan lebih banyak lagi data yang tidak berlabel.

Tujuan:

  1. Terapkan klasifikasi semi-terawasi
  2. Terapkan proses pelabelan yang semi-diawasi (dikenal sebagai pembelajaran aktif)

Saya telah menemukan banyak informasi dari makalah penelitian, seperti menerapkan EM, Transductive SVM atau S3VM (Semi Supervised SVM), atau entah bagaimana menggunakan LDA, dll. Bahkan ada beberapa buku tentang topik ini.

Pertanyaan: Di mana implementasi dan sumber praktis?


Pembaruan akhir (berdasarkan bantuan yang diberikan oleh mpiktas, bayer, dan Marsupial Dikran)

Pembelajaran semi-diawasi:

Giat belajar:

  • Dualist : implementasi pembelajaran aktif dengan kode sumber pada klasifikasi teks
  • Halaman web ini menyajikan tinjauan luar biasa dari pembelajaran aktif.
  • Lokakarya Desain eksperimental: di sini .

Pembelajaran mendalam:

  • Video pengantar di sini .
  • Situs umum .
  • Tutorial Pembelajaran Fitur Stanford Unsupervised dan Deep Learning .
Mengelupas
sumber
Ada paket R RTextTools . Jika saya tidak salah itu mengimplementasikan beberapa metode yang Anda sebutkan.
mpiktas
Hai mpiktas, terima kasih atas bantuannya. Ini adalah toolkit yang menarik. Namun, tampaknya hanya berurusan dengan pembelajaran yang diawasi, ketika saya membaca "TextTools adalah paket pembelajaran mesin sumber terbuka gratis untuk klasifikasi teks otomatis yang memudahkan pengguna pemula dan lanjut untuk memulai dengan pembelajaran yang diawasi. Paket ini termasuk sembilan algoritma untuk klasifikasi ensemble (svm, slda, meningkatkan, mengantongi, hutan acak, glmnet, pohon keputusan, jaringan saraf, entropi maksimum) "
Flake
Ok, berikut ini percobaan lain: Weka . Para penulis telah menulis sebuah buku, dan daftar isinya menyebutkan pembelajaran semi-diawasi. Saya sangat berharap bahwa bab ini tidak berakhir dengan "... sayangnya tidak ada algoritma ini diimplementasikan di Weka" :)
mpiktas
Drat, saya mendapatkan versi buku yang lebih lama! Terima kasih banyak untuk menunjukkan sumber ini!
Flake

Jawaban:

8

Sepertinya pembelajaran mendalam mungkin sangat menarik bagi Anda. Ini adalah bidang model koneksionis yang sangat baru yang dipra-pra dengan cara yang tidak diawasi dan diperbaiki setelahnya dengan pengawasan. Penalaan yang bagus membutuhkan sampel yang jauh lebih sedikit daripada pretraining.

Untuk membasahi lidah Anda, saya sarankan [Semantig Hashing Salakhutdinov, Hinton . Lihatlah kode-kode yang ditemukan ini untuk dokumen-dokumen berbeda dari korpus Reuters: (tanpa pengawasan!)

masukkan deskripsi gambar di sini

Jika Anda memerlukan beberapa kode yang diimplementasikan, periksa deeplearning.net . Saya tidak percaya ada solusi di luar kotak.

bayerj
sumber
Ini informasi yang cukup menarik dan baru bagi saya. Tentu saja implementasi di luar kotak akan lebih baik, tetapi ini benar-benar membantu saya untuk mengetahui sesuatu yang lebih dekat dengan apa yang saya inginkan. Terima kasih.
Flake
5

Isabelle Guyon (dan kolega) mengorganisir tantangan untuk belajar aktif beberapa waktu lalu, prosesnya diterbitkan di sini (akses terbuka). Ini memiliki keuntungan karena cukup praktis dan Anda dapat langsung membandingkan kinerja berbagai pendekatan di bawah protokol yang tidak bias (dalam arti bahasa sehari-hari) (pemilihan pola acak secara mengejutkan sulit dikalahkan).

Dikran Marsupial
sumber