Pertanyaan yang diberi tag nlp

49

Alokasi Dirichlet Laten vs Proses Dirichlet Hierarkis

Alokasi Dirichlet Laten (LDA) dan Proses Hirarki Dirichlet (HDP) keduanya merupakan proses pemodelan topik. Perbedaan utama adalah LDA membutuhkan spesifikasi jumlah topik, dan HDP tidak. Kenapa begitu? Dan apa perbedaan, pro, dan kontra dari kedua metode pemodelan

nlp topic-model lda

34

Apa sajakah cara standar untuk menghitung jarak antar dokumen?

Ketika saya mengatakan "dokumen", saya memikirkan halaman web seperti artikel Wikipedia dan cerita berita. Saya lebih suka jawaban yang memberikan metrik jarak vanila atau metrik jarak semantik canggih, dengan preferensi yang lebih kuat untuk yang

machine-learning data-mining nlp text-mining similarity

29

Mengapa xgboost jauh lebih cepat daripada sklearn GradientBoostingClassifier?

Saya mencoba untuk melatih model peningkatan gradien lebih dari 50k contoh dengan 100 fitur numerik. XGBClassifiermenangani 500 pohon dalam waktu 43 detik pada mesin saya, sementara GradientBoostingClassifierhanya menangani 10 pohon (!) dalam 1 menit dan 2 detik :( Saya tidak repot-repot mencoba...

scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

28

Algoritma apa yang harus saya gunakan untuk melakukan klasifikasi pekerjaan berdasarkan data resume?

Perhatikan bahwa saya melakukan semuanya dalam R. Masalahnya sebagai berikut: Pada dasarnya, saya memiliki daftar riwayat hidup (CV). Beberapa kandidat akan memiliki pengalaman kerja sebelumnya dan beberapa tidak. Tujuannya di sini adalah untuk: berdasarkan teks pada CV mereka, saya ingin...

machine-learning classification nlp text-mining

27

Pendekatan umum untuk mengekstrak teks kunci dari kalimat (nlp)

Diberi kalimat seperti: Complimentary gym access for two for the length of stay ($12 value per person per day) Pendekatan umum apa yang dapat saya ambil untuk mengidentifikasi kata gym atau akses

machine-learning nlp text-mining data-cleaning

25

Word2Vec untuk Pengakuan Entitas Bernama

Saya mencari untuk menggunakan implementasi word2vec google untuk membangun sistem pengenalan entitas bernama. Saya pernah mendengar bahwa jaring saraf rekursif dengan propagasi balik melalui struktur sangat cocok untuk tugas-tugas pengenalan entitas, tetapi saya tidak dapat menemukan implementasi...

machine-learning python neural-network nlp

24

Mengapa komunitas NLP dan Pembelajaran Mesin tertarik pada pembelajaran yang mendalam?

Saya harap Anda dapat membantu saya, karena saya memiliki beberapa pertanyaan tentang topik ini. Saya baru di bidang pembelajaran mendalam, dan sementara saya melakukan beberapa tutorial, saya tidak dapat menghubungkan atau membedakan konsep satu sama

machine-learning data-mining neural-network nlp deep-learning

23

Apa pengkodean posisional dalam model transformator?

Saya baru mengenal ML dan ini adalah pertanyaan pertama saya di sini, jadi maaf jika pertanyaan saya konyol. Saya mencoba membaca dan memahami makalah Perhatian yang Anda butuhkan dan di dalamnya, ada gambar: Saya tidak tahu apa itu pengkodean posisi . dengan mendengarkan beberapa video youtube...

nlp encoding attention-mechanism transformer

22

Apa input yang lebih baik untuk Word2Vec?

Ini lebih seperti pertanyaan NLP umum. Apa input yang tepat untuk melatih embedding kata yaitu Word2Vec? Haruskah semua kalimat yang dimiliki artikel menjadi dokumen terpisah dalam korpus? Atau haruskah setiap artikel menjadi dokumen dalam kata corpus? Ini hanya contoh menggunakan python dan...

nlp word-embeddings

21

Bagaimana cara memuat model pretrain FastText dengan Gensim?

Saya mencoba memuat model fastText pretrained dari sini model Fasttext . Saya menggunakan wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) Tapi, itu menunjukkan kesalahan berikut Traceback (most...

nlp gensim

20

Bagaimana saya bisa mendapatkan kesamaan kata-kata semantik?

Apa cara terbaik untuk mengetahui kemiripan semantik kata-kata? Word2Vec baik-baik saja, tetapi tidak ideal: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]:...

nlp word-embeddings word2vec nltk

20

Memprediksi kata menggunakan model Word2vec

Diberi kalimat: "Ketika saya membuka ?? pintu mulai memanas secara otomatis" Saya ingin mendapatkan daftar kata-kata yang mungkin masuk ?? dengan probabilitas. Konsep dasar yang digunakan dalam model word2vec adalah untuk "memprediksi" kata yang diberikan konteks sekitarnya. Setelah model...

nlp predictive-modeling word-embeddings

19

Bagaimana cara mengembangkan daftar kata-kata terkait berdasarkan kata kunci awal?

Baru-baru ini saya melihat fitur keren yang pernah tersedia di Google Sheets: Anda mulai dengan menulis beberapa kata kunci terkait dalam sel berturut-turut, katakan: "biru", "hijau", "kuning", dan secara otomatis menghasilkan kata kunci yang serupa (dalam hal ini , warna lainnya). Lihat lebih...

nlp text-mining freebase

18

Dataset untuk Pengakuan Entitas Bernama pada Teks Informal

Saat ini saya sedang mencari dataset berlabel untuk melatih model untuk mengekstrak entitas bernama dari teks informal (sesuatu yang mirip dengan tweets). Karena kapitalisasi dan tata bahasa sering kurang dalam dokumen dalam set data saya, saya mencari di luar data domain yang sedikit lebih...

dataset nlp

18

NLP - mengapa "bukan" kata yang berhenti?

Saya mencoba untuk menghapus kata-kata berhenti sebelum melakukan pemodelan topik. Saya perhatikan bahwa beberapa kata negasi (tidak, tidak, tidak, tidak ada, dll.) Biasanya dianggap sebagai kata-kata berhenti. Misalnya, NLTK, spacy dan sklearn menyertakan "tidak" pada daftar kata stop mereka....

nlp topic-model sentiment-analysis

18

Meningkatkan kecepatan implementasi t-sne di python untuk data yang sangat besar

Saya ingin melakukan pengurangan dimensionalitas pada hampir 1 juta vektor masing-masing dengan 200 dimensi ( doc2vec). Saya menggunakan TSNEimplementasi dari sklearn.manifoldmodul untuk itu dan masalah utama adalah kompleksitas waktu. Bahkan dengan method = barnes_hut, kecepatan komputasi masih...

python bigdata nlp scikit-learn dimensionality-reduction

18

Word2Vec vs Sentence2Vec vs Doc2Vec

Baru-baru ini saya menemukan istilah Word2Vec , Sentence2Vec dan Doc2Vec dan agak bingung karena saya baru mengenal semantik vektor. Dapatkah seseorang tolong menjelaskan perbedaan dalam metode ini dengan kata-kata sederhana. Apa tugas yang paling cocok untuk setiap

machine-learning data-mining clustering nlp unsupervised-learning

18

Algoritma praktis terbaik untuk kesamaan kalimat

Saya memiliki dua kalimat, S1 dan S2, keduanya memiliki jumlah kata (biasanya) di bawah 15. Apa algoritma (pembelajaran mesin) yang praktis dan paling berguna, yang mungkin mudah diimplementasikan (jaringan saraf ok, kecuali arsitekturnya serumit Google Inception, dll.). Saya mencari algoritma...

nlp clustering word2vec similarity

18

Bagaimana cara membuat anotasi dokumen teks dengan meta-data?

Memiliki banyak dokumen teks (dalam bahasa alami, tidak terstruktur), apa cara yang memungkinkan untuk membuat anotasi dengan beberapa meta-data semantik? Misalnya, pertimbangkan dokumen pendek: I saw the company's manager last day. Untuk dapat mengekstraksi informasi darinya, harus dianotasi...

nlp metadata data-cleaning text-mining

16

Ekstrak bagian teks yang paling informatif dari dokumen

Apakah ada artikel atau diskusi tentang penggalian bagian teks yang paling banyak menyimpan informasi tentang dokumen saat ini. Misalnya, saya memiliki kumpulan besar dokumen dari domain yang sama. Ada bagian teks yang menyimpan informasi penting yang dibicarakan oleh satu dokumen. Saya ingin...

nlp text-mining