Nah nama-nama yang cukup lurus ke depan dan harus memberi Anda gambaran yang jelas tentang representasi vektor.
Algoritma Word2Vec membangun representasi kata-kata semantik yang terdistribusi. Ada dua pendekatan utama untuk pelatihan, Bag of Words Terdistribusi dan The skip gram model. Satu melibatkan memprediksi kata konteks menggunakan kata tengah, sementara yang lain melibatkan memprediksi kata menggunakan kata konteks. Anda dapat membacanya di banyak detail dalam Mikolov ini kertas .
Gagasan yang sama dapat diperluas ke kalimat dan melengkapi dokumen di mana alih-alih mempelajari representasi fitur untuk kata-kata, Anda mempelajarinya untuk kalimat atau dokumen. Namun, untuk mendapatkan gambaran umum tentang SentenceToVec, anggap itu sebagai rata-rata matematika dari representasi vektor kata dari semua kata dalam kalimat. Anda bisa mendapatkan perkiraan yang sangat baik hanya dengan rata-rata dan tanpa melatih SentenceToVec, tetapi tentu saja, ia memiliki keterbatasan.
Doc2Vec memperluas gagasan SentenceToVec atau lebih tepatnya Word2Vec karena kalimat juga dapat dianggap sebagai dokumen. Gagasan pelatihan tetap serupa. Anda dapat membaca kertas Doc2Vec milik Mikolov untuk lebih jelasnya.
Datang ke aplikasi, itu akan tergantung pada tugas. Word2Vec secara efektif menangkap hubungan semantik antara kata-kata sehingga dapat digunakan untuk menghitung kesamaan kata atau dimasukkan sebagai fitur untuk berbagai tugas NLP seperti analisis sentimen dll. Namun kata-kata hanya dapat menangkap begitu banyak, ada kalanya Anda membutuhkan hubungan antara kalimat dan dokumen dan bukan hanya kata-kata. Misalnya, jika Anda mencoba mencari tahu, apakah dua pertanyaan stack overflow merupakan duplikat satu sama lain.
Pencarian google sederhana akan mengarahkan Anda ke sejumlah aplikasi dari algoritma ini.