Pertanyaan yang diberi tag nlp

Pemrosesan bahasa alami (NLP) adalah bidang ilmu komputer, kecerdasan buatan, dan linguistik yang berkaitan dengan interaksi antara komputer dan bahasa manusia (alami). Dengan demikian, NLP terkait dengan bidang interaksi manusia-komputer. Banyak tantangan dalam NLP melibatkan pemahaman bahasa alami, yaitu, memungkinkan komputer untuk mendapatkan makna dari input bahasa manusia atau bahasa alami, dan yang lain melibatkan generasi bahasa alami.

29
Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?

Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba...

22
Apa input yang lebih baik untuk Word2Vec?

Ini lebih seperti pertanyaan NLP umum. Apa input yang tepat untuk melatih embedding kata yaitu Word2Vec? Haruskah semua kalimat yang dimiliki artikel menjadi dokumen terpisah dalam korpus? Atau haruskah setiap artikel menjadi dokumen dalam kata corpus? Ini hanya contoh menggunakan python dan...

21
Bagaimana cara memuat model pretrain FastText dengan Gensim?

Saya mencoba memuat model fastText pretrained dari sini model Fasttext . Saya menggunakan wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) Tapi, itu menunjukkan kesalahan berikut Traceback (most...

18
Dataset untuk Pengakuan Entitas Bernama pada Teks Informal

Saat ini saya sedang mencari dataset berlabel untuk melatih model untuk mengekstrak entitas bernama dari teks informal (sesuatu yang mirip dengan tweets). Karena kapitalisasi dan tata bahasa sering kurang dalam dokumen dalam set data saya, saya mencari di luar data domain yang sedikit lebih...

18
NLP - mengapa "bukan" kata yang berhenti?

Saya mencoba untuk menghapus kata-kata berhenti sebelum melakukan pemodelan topik. Saya perhatikan bahwa beberapa kata negasi (tidak, tidak, tidak, tidak ada, dll.) Biasanya dianggap sebagai kata-kata berhenti. Misalnya, NLTK, spacy dan sklearn menyertakan "tidak" pada daftar kata stop mereka....

16
Ekstrak bagian teks yang paling informatif dari dokumen

Apakah ada artikel atau diskusi tentang penggalian bagian teks yang paling banyak menyimpan informasi tentang dokumen saat ini. Misalnya, saya memiliki kumpulan besar dokumen dari domain yang sama. Ada bagian teks yang menyimpan informasi penting yang dibicarakan oleh satu dokumen. Saya ingin...