Apa metode terbaru untuk melatih bot obrolan?

11

Saya ingin melatih bot yang menggunakan input teks, menghafal beberapa kategori dan menjawab pertanyaan sesuai. Selain versi 2.0, saya ingin membuat bot untuk menjawab input suara juga. Manakah algoritma pembelajaran mesin / AI terbaru yang tersedia untuk hal yang sama? Tolong beritahu saya.

bharadwaj aldur
sumber
periksa jaringan dinamis-memori-saraf
riemann77
Pertimbangkan untuk menggunakan pemetaan symantic-matematika .
Sergei

Jawaban:

1

Pertanyaan Anda sangat luas - jadi sebagai tanggapan, dua kerangka kerja luas yang saya sarankan untuk Anda lihat adalah:

  1. Untuk pengembangan percakapan chatbot mutakhir http://rasa.ai adalah kerangka kerja open source yang lebih mudah beradaptasi daripada sistem berbasis aturan tradisional
  2. Untuk pengenalan ucapan, periksa https://discourse.mozilla.org/c/deep-speech yang juga merupakan sumber terbuka.
Julian H
sumber
0

Jika bot Anda "mengingat" beberapa kategori dan kemudian menjawab pertanyaan, maka itu cukup tidak berguna dalam skenario saat ini. karena dalam hal ini kinerjanya sangat buruk pada dataset yang berbeda (test-set). dalam terminologi statistik ini disebut "overfitting". dan datang untuk menjawab pertanyaan, tidak ada aturan praktis untuk mendefinisikan "state-of-art" algoritma. Meskipun Anda dapat memeriksa beberapa model yang berkinerja baik pada babi atau dataset serupa menyukai jaringan memori dinamis atau model seQ2seQ. untuk mendapatkan ide dasar dari bidang ini, saya akan menyarankan Anda untuk belajar bahasa dasar belajar mesin dan kemudian beralih ke beberapa kursus pemrosesan bahasa alami-maju (Stanford menawarkan cs224n).

riemann77
sumber
0

Negara bagian AbuShawar & Atwell:

Chatbot adalah agen percakapan yang berinteraksi dengan pengguna secara bergantian menggunakan bahasa alami. Chatbot atau sistem dialog manusia-komputer yang berbeda telah dikembangkan menggunakan komunikasi lisan atau teks dan telah diterapkan di berbagai domain seperti: penelitian linguistik, pendidikan bahasa, layanan pelanggan, bantuan situs web, dan untuk bersenang-senang.

Makalah mereka dan makalah lainnya menyampaikan beberapa dari banyak pendekatan kontemporer untuk pelatihan chatbot pada tulisan ini.

Ekstraksi Otomatis dari Data Pelatihan Chatbot dari Natural Dialogue Corpora , Bayan AbuShawar, Eric Atwell, 2016

Namun, sebagian besar obrolan dibatasi untuk pengetahuan yang secara manual ada di file mereka, dan untuk bahasa alami tertentu yang ditulis atau diucapkan. Makalah ini menyajikan program yang kami kembangkan untuk mengubah teks yang dapat dibaca mesin (corpus) ke format chatbot tertentu, yang kemudian digunakan untuk melatih kembali chatbot dan menghasilkan obrolan yang lebih dekat dengan bahasa manusia. Berbagai korpora digunakan: dialog korporat seperti British National Corpus of English (BNC); kitab suci Islam Quran yang merupakan monolog corpus di mana ayat dan ayat berikutnya dibalik; dan FAQ di mana pertanyaan dan jawaban berpasangan. Tujuan utama dari proses otomatisasi ini adalah kemampuan untuk menghasilkan prototipe chatbot yang berbeda yang berbicara bahasa yang berbeda berdasarkan corpus.

Konteks-Ketidakpastian-Sadar Seleksi Tindakan Chatbot melalui Pembelajaran Penguatan Bantu Parameter , Chuandong Yin, Rui Zhang, Jianzhong Qi, Yu Sun, dan Tenglun Tan, 2018

Kami mengusulkan chatbot konteks-ketidakpastian-sadar dan model penguatan belajar (RL) untuk melatih chatbot. Model yang diusulkan bernama Parameterized Auxiliary Asynchronous Advantage Actor Critic (PA4C). Kami menggunakan simulator pengguna untuk mensimulasikan ketidakpastian kepercayaan ucapan pengguna dalam konteks percakapan. Dibandingkan dengan pendekatan berbasis aturan yang naif, chatbot kami yang dilatih melalui model PA4C menghindari pemilihan tindakan buatan tangan dan lebih kuat untuk varian ucapan pengguna. Model PA4C mengoptimalkan model RL konvensional dengan parameterisasi tindakan dan tugas tambahan untuk pelatihan chatbot, yang mengatasi masalah ruang tindakan yang besar dan status tanpa imbalan. Kami mengevaluasi model PA4C melalui pelatihan chatbot untuk tugas-tugas pembuatan acara kalender.

Pelatihan Sistem Pembelajaran dengan Pengawasan Menggunakan Chatbot Interaction , Publikasi Aplikasi Paten Amerika Serikat 0034828 A1, International Business Machines Corporation, Armonk, NY, US, 2019

Metode yang diimplementasikan komputer yang terdiri dari menerima dan menganalisis titik data untuk menentukan parameter titik data, menghasilkan tiket peringatan berdasarkan analisis titik data, berkomunikasi, melalui chatbot, setidaknya beberapa informasi yang terkandung dalam tiket peringatan ke satu atau lebih banyak pengguna, dan mengelompokkan, melalui chatbot, titik data yang menghasilkan tiket peringatan berdasarkan perilaku perangkat yang menghasilkan titik data. Jonathan A. Cagadas, Alexander D. Lewitt, Simon D. Mikulcik, Karan Shukla, Leigh A. Williamson

Pelatihan Dua Langkah dan Dekode-Pengodean Campuran untuk Menerapkan Chatbot Generatif dengan Corpus Dialog Kecil , Jintae Kim, Hyeon-Gu Lee, Kim Harksoo, Kim Yeonsoo, Yeonsoo Lee, Young-Gil Kim, 2016

Model chatbot generatif berdasarkan jaringan urutan-ke-urutan dapat menghasilkan interaksi percakapan alami jika korpus dialog besar digunakan sebagai data pelatihan. Namun, kecuali untuk beberapa bahasa seperti Inggris dan Cina, tetap sulit untuk mengumpulkan korpus dialog yang besar. Untuk mengatasi masalah ini, kami mengusulkan model chatbot menggunakan campuran kata dan suku kata sebagai unit encoding-decoding. Selain itu, kami mengusulkan metode pelatihan dua langkah, yang melibatkan pra-pelatihan menggunakan corpus non-dialog yang besar dan pelatihan ulang menggunakan corpus dialog kecil. Dalam percobaan kami, unit campuran ditunjukkan untuk membantu mengurangi masalah out-of-vocabulary (OOV). Selain itu, metode pelatihan dua langkah efektif dalam mengurangi kesalahan tata bahasa dan semantik dalam tanggapan ketika chatbot dilatih menggunakan corpus dialog kecil (533,

Seleksi Data Submodularity-Terinspirasi untuk Pelatihan Chatbot Berorientasi Tujuan Berdasarkan Embeddings Kalimat , Mladen Dimovski, Claudiu Musat, Vladimir Ilievski, Andreea Hossmann, Michael Baeriswyl, 2018

Sistem pemahaman bahasa lisan (SLU), seperti obrolan berorientasi tujuan atau asisten pribadi, bergantung pada modul pemahaman bahasa awal (NLU) untuk menentukan maksud dan untuk mengekstrak informasi yang relevan dari permintaan pengguna yang mereka ambil sebagai masukan. Sistem SLU biasanya membantu pengguna untuk memecahkan masalah dalam domain yang relatif sempit dan membutuhkan sejumlah besar data pelatihan dalam domain. Hal ini menyebabkan masalah ketersediaan data yang signifikan yang menghambat pengembangan sistem yang sukses. Untuk mengatasi masalah ini, kami mengusulkan teknik pemilihan data dalam rezim data rendah yang memungkinkan kami untuk melatih dengan lebih sedikit kalimat berlabel, sehingga biaya pelabelan lebih kecil. Kami mengusulkan fungsi peringkat data yang diilhami submodularitas, keuntungan marginal rasio-penalti, untuk memilih titik data yang akan diberi label hanya berdasarkan informasi yang diekstrak dari ruang penyisipan teks. Kami menunjukkan bahwa jarak dalam ruang embedding adalah sumber informasi yang dapat digunakan untuk pemilihan data. Metode kami mengungguli dua teknik pembelajaran aktif yang dikenal dan memungkinkan pelatihan unit NLU yang hemat biaya. Selain itu, teknik seleksi yang kami usulkan tidak perlu model untuk dilatih kembali di antara langkah-langkah seleksi, membuatnya efisien waktu juga.

Douglas Daseeco
sumber
-1

Anda dapat bekerja dengan Jaring Berulang Berulang dengan LSTM atau GRU sebagai sel memori dan embeddings kata seperti Word2vec. Model Beam search dan Attention juga dapat digunakan dengan RNNs untuk ketahanan dan bias yang lebih rendah. Tetapi output dari ini cukup besar sampai batas tertentu hanya karena penelitian di bidang ini masih panas dan banyak yang harus diurai.

koushik
sumber