Saya seorang pelajar baru di NLP. Saya tertarik pada tugas menghasilkan kalimat. Sejauh yang saya ketahui, salah satu metode canggih adalah CharRNN , yang menggunakan RNN untuk menghasilkan urutan kata-kata.
Namun, BERT telah keluar beberapa minggu yang lalu dan sangat kuat. Karena itu, saya bertanya-tanya apakah tugas ini juga dapat dilakukan dengan bantuan BERT? Saya seorang pelajar baru di bidang ini, dan terima kasih atas sarannya!
Jawaban:
Untuk pemula, TIDAK.
Pembuatan kalimat membutuhkan pengambilan sampel dari model bahasa, yang memberikan distribusi probabilitas kata berikutnya yang diberikan konteks sebelumnya. Tetapi BERT tidak dapat melakukan ini karena sifatnya dua arah.
Untuk peneliti tingkat lanjut, YES.
Anda bisa mulai dengan kalimat dari semua token [MASK], dan menghasilkan kata-kata satu per satu dalam urutan acak (bukan dekomposisi rantai kiri-ke-kanan yang umum). Padahal kualitas pembuatan teks sulit dikendalikan.
Berikut ini laporan teknis BERT yang Mulut, dan Harus Bicara: BERT sebagai Model Bahasa Bidang Acak Markov , errata dan kode sumbernya .
Singkatnya:
sumber
percobaan ini oleh Stephen Mayhew menunjukkan bahwa BERT buruk pada pembuatan teks berurutan:
http://mayhewsw.github.io/2019/01/16/can-bert-generate-text/
sumber
Tidak. Pembuatan kalimat berhubungan langsung dengan pemodelan bahasa (diberikan kata-kata sebelumnya dalam kalimat, apa kata berikutnya). Karena dua arah BERT, BERT tidak dapat digunakan sebagai model bahasa. Jika itu tidak dapat digunakan sebagai model bahasa, saya tidak melihat bagaimana Anda dapat menghasilkan kalimat menggunakan BERT.
sumber
Apa opsi alternatif yang ada untuk ini?
sumber