Saya menggunakan Perpustakaan Gensim dalam python untuk menggunakan dan melatih model word2vector. Baru-baru ini, saya melihat inisialisasi bobot model saya dengan beberapa model word2vec yang sudah dilatih sebelumnya seperti (model pretrained GoogleNewDataset). Saya telah berjuang dengan itu beberapa minggu. Sekarang, saya hanya mencari bahwa di gesim ada fungsi yang dapat membantu saya untuk menginisialisasi bobot model saya dengan bobot model pra-terlatih. Itu disebutkan di bawah ini:
reset_from(other_model)
Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus.
Saya tidak tahu fungsi ini bisa melakukan hal yang sama atau tidak. Tolong bantu!!!
Jawaban:
Terima kasih Abhishek. Saya sudah memikirkannya! Ini eksperimen saya.
1). kami memplot contoh yang mudah:
Dari plot di atas, kita dapat melihat bahwa kalimat yang mudah tidak dapat membedakan arti kata yang berbeda berdasarkan jarak.
2). Muatkan penyisipan kata pra-terlatih:
Dari gambar di atas, kita dapat melihat bahwa embeddings kata lebih bermakna.
Semoga jawaban ini bermanfaat.
sumber
Mari kita lihat kode contoh:
Oleh karena itu, kami mengamati bahwa model1 sedang direset oleh model2 dan karenanya kata, 'ketiga' dan 'kalimat' ada dalam kosa kata itu akhirnya memberikan kesamaan. Ini adalah penggunaan dasar, Anda juga dapat memeriksa reset_weights () untuk mengatur ulang bobot ke keadaan tidak terlatih / awal.
sumber
Jika Anda mencari jaring pra-terlatih untuk embeddings kata, saya sarankan GloVe. Blog berikut dari Keras sangat informatif tentang cara menerapkannya. Ini juga memiliki tautan ke pernikahan GloVe yang sudah dilatih sebelumnya. Ada vektor kata pra-terlatih mulai dari vektor 50 dimensi hingga 300 vektor dimensi. Mereka dibangun di Wikipedia, Data Perayapan Umum, atau data Twitter. Anda dapat mengunduhnya di sini: http://nlp.stanford.edu/projects/glove/ . Selain itu, Anda harus memeriksa keras blog tentang cara menerapkannya. https://blog.keras.io/using-pre-trained-word-embeddings-in-a-keras-model.html
sumber
Saya telah melakukannya di sini: https://gist.github.com/AbhishekAshokDubey/054af6f92d67d5ef8300fac58f59fcc9
Lihat apakah ini yang Anda butuhkan
sumber