Pertanyaan yang diberi tag word-embeddings

Penyematan kata adalah nama kolektif untuk sekumpulan pemodelan bahasa dan teknik pembelajaran fitur di NLP di mana kata-kata dipetakan ke vektor bilangan real dalam ruang berdimensi rendah, relatif terhadap ukuran kosa kata.

22
Apa input yang lebih baik untuk Word2Vec?

Ini lebih seperti pertanyaan NLP umum. Apa input yang tepat untuk melatih embedding kata yaitu Word2Vec? Haruskah semua kalimat yang dimiliki artikel menjadi dokumen terpisah dalam korpus? Atau haruskah setiap artikel menjadi dokumen dalam kata corpus? Ini hanya contoh menggunakan python dan...

16
membuat peta panas seaborn lebih besar

Saya membuat corr()df dari df asli. The corr()df keluar 70 X 70 dan tidak mungkin untuk memvisualisasikan heatmap tersebut ... sns.heatmap(df). Jika saya mencoba untuk menampilkan corr = df.corr(), tabel tidak cocok dengan layar dan saya bisa melihat semua korelasinya. Apakah ini cara untuk...

11
Bagaimana word2vec dapat digunakan untuk mengidentifikasi kata-kata yang tidak terlihat dan menghubungkannya dengan data yang sudah terlatih

Saya sedang mengerjakan model gensim word2vec dan merasa sangat menarik. Saya tertarik menemukan bagaimana kata yang tidak diketahui / tidak terlihat ketika diperiksa dengan model akan bisa mendapatkan istilah yang sama dari model yang dilatih. Apakah ini mungkin? Bisakah word2vec di-tweak untuk...

11
Apakah ada model bahasa out-of-the-box yang bagus untuk python?

Saya membuat prototipe aplikasi dan saya membutuhkan model bahasa untuk menghitung kebingungan pada beberapa kalimat yang dihasilkan. Apakah ada model bahasa terlatih dalam python yang bisa saya gunakan? Sesuatu yang sederhana seperti model = LanguageModel('en') p1 = model.perplexity('This is a...